购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第一节

数据新闻的边界

在数据新闻概念提出的十年间,数据新闻的边界问题一直是学界、业界探讨、争论的基础问题。针对这个问题,笔者先回溯数据新闻提出的“原点”,梳理不同观点,尝试勾勒出数据新闻的边界。

一、什么是数据新闻

何为数据新闻?一种观点认为数据新闻是计算机辅助报道的同义词。美国国家计算机辅助报道协会(National Institute for Computer-Assisted Reporting,NICAR)认为“计算机辅助报道和数据新闻只是名字上的差异,并无实质不同”。另一种观点则认为数据新闻不仅迥异于计算机辅助报道,也迥异于其他新闻类型。

考察数据新闻的概念和范畴应将其还原到概念提出的原初语境中和概念的真正所指上。最早提出数据新闻理念的是EveryBlock网站创始人阿德里安·哈罗瓦,2006年他在《报纸网站需要改变的根本路径》一文中提出报纸网站应从“以故事为中心的世界观”(story-centric worldview)转向“从结构化数据中发现故事”。 阿德里安·哈罗瓦认为,报纸记者搜集的是“结构化的信息”(如火灾的日期、时间、地点、受害者、消防站数量等),原本可储存于计算机供读者日后查阅、比较的内容,却被记者“蒸馏”成文本信息,只能利用一次,没有再利用(repurposed)的机会。报纸网站应充分挖掘结构化信息的价值,为读者服务,而不是单纯刊登报纸稿件。

阿德里安·哈罗瓦提出的“去故事中心”报道理念并非指向所有传播平台的所有报道,而是指向报纸网站。他针对的是报纸网站是报纸内容“翻版”的问题,提出报纸网站应利用新媒体平台的技术优势,让结构化信息发挥更大价值,让读者从结构化信息中找到关联,产生新的洞察。

实际上阿德里安·哈罗瓦在发表《报纸网站需要改变的根本路径》前就已经开始实践他的“去故事中心”理念。2005年5月他启动了“芝加哥犯罪”网站(chicagocrime.org),将谷歌地图(Google Maps)与芝加哥警察局(Chicago Police Department)的数据相结合创建了基于每个街区的犯罪交互地图,让芝加哥居民便捷地获取住处附近的犯罪记录。 这其实是数据库新闻(Database Journalism),数据新闻的一种子形态。

将阿德里安·哈罗瓦“去故事中心”的报道理念最先应用于实践的是2007年8月美国《坦帕湾时报》( Tampa Bay Times )创立的数据驱动网站PolitiFact(译为“政治真相”),该网站在声明中明确表示在阿德里安·哈罗瓦的启发下,该网站以事实核查(fact-check)为宗旨,通过数据库而不是报纸新闻(newspaper story)为受众提供更好的服务。 在2008年美国总统大选报道中,该网站核查了750多条政治主张(political claims),帮助选民辨别事实与修辞 ,获得2009年普利策新闻奖。

第一个正式提出“数据新闻”概念的是前《卫报》数字编辑、现谷歌趋势数据主编分析师西蒙·罗杰斯(Simon Rogers)。2008年12月18日他在《卫报》网站一篇博文《按下按钮,把官方数字变成可理解的图表》(Turning official figures into understandable graphics,at the press of a button)中正式提出了“数据新闻”的概念:

就在昨天,我们的研发团队找到了一种能处理原始数据,也能进行数据映射的应用方式。这意味着我们能生产一种奇妙的、基于数据的互动图表。这就是数据新闻——编辑和研发者生产出的有趣的技术产品,它将改变我们的工作方式,以及我们看待数据的方式。

虽然现在也有观点认为,数据新闻不必然以数据可视化作为呈现方式,但是笔者通过对国内外学界、业界对数据新闻理解的梳理情况看,认为数据可视化作为呈现方式的观点占主流。西蒙·罗杰斯在其著作《事实是神圣的:数据的力量》( Facts are Sacred:The Power of Data )中并没有给数据新闻下定义,但通过他对数据新闻的描述可以看出,数据、数据处理和数据可视化是构成数据新闻的三要素。哥伦比亚大学托尔(TOW)数字新闻中心发布的《数据驱动新闻业的艺术与科学》(The Art and Science of Data-driven Journalism)研究报告认为数据新闻最基本的形式中必须包含三个要素:(1)将数据视为消息来源;(2)运用统计方法质询数据;(3)运用可视化手段呈现数据。 英国伯明翰城市大学教授保罗·布拉德肖(Paul Bradshaw)认为,数据新闻并非用数据做新闻,而是将传统的新闻敏感(nose for news)与用大规模数字信息讲述引人入胜故事的能力的结合。

也有学者用否定的方式提出“数据新闻不是什么”:数据新闻不是社会科学,尽管我们在报道中使用民调、统计和其他相关方法;数据新闻不是数学,尽管我们需要知道如何计算趋势或者进行基本的运算;数据新闻不是漂亮的图表、酷炫的交互地图,尽管我们经常用可视化进行分析或说明;数据新闻不是硬核代码(hardcore coding),尽管我们用代码分析、抓取、制作图表;数据新闻不是黑客,我们不做这种事。 无论数据新闻的界定是通过形态还是流程,都有两个突出的要素:量化的信息应该在报道的发展或叙事中居于中心地位;报道中应有相关数据的视觉呈现。

基于对数据新闻不同角度的认识,国内外学界、业界对数据新闻的界定分类三类:“流程说”“构成说”“综合说”。

“流程说”是将数据新闻视为一种新闻生产流程。资深数据记者乔纳森·史特里(Jonathan Stray)认为数据新闻是基于公共利益采集、报道、策展(curating) 和发布数据的新闻。 德国之声记者米尔科·劳伦兹(Mirko Lorenz)认为数据新闻可被视为一种提炼流程(a process of refinement),在这一过程中,原始数据转化为有意义的内容。当复杂的事实被提炼成清晰的故事被公众理解和记住时,数据对公众的价值得以增加。数据新闻的生产流程可以分为数据(data)、过滤(filter)、可视化(visualize)和故事(story)四个阶段(见图2—1),在这四个阶段推进的过程中,数据对公众的价值越来越大。

图2-1 劳伦兹的数据新闻生产流程

资料来源:EUROPEAN JOURNALISM CENTRE.Data driven journalism:what is there to learn?[EB/OL].(2010—08—24)[2018—05—15]. http://mediapusher.eu/datadrivenjournalism/pdf/ddj_paper_final.pdf.

“构成说”是将数据新闻的构成要素列出组成定义。这类定义最多,它一般围绕三个构成要件——对象、方法和呈现手段展开。其代表性的定义包括以下几种。

数据新闻是用结构化的数据所做的新闻 ,而非用数据做的新闻。

这一定义认为数据新闻的核心要素是结构化数据。对结构化数据的强调意味着数据是可被计算机处理的。 但这个定义没有划清数据新闻与计算机辅助报道的界线。因为结构化数据在日常新闻生产中早已是计算机辅助报道的处理对象,如今数据新闻的数据对象还包括半结构化数据和非结构化数据。

数据新闻以服务公众利益为目的,以公开的数据为基础,依靠特殊的软件程序对数据进行处理,挖掘隐藏于宏观、抽象数据背后的新闻故事,以形象、互动的可视化方式呈现新闻。

这一定义涵盖了数据新闻构成的三要素——对象、方法论和呈现方式,但是对方法论的描述并不具体:“特殊”的软件程序是什么?

数据新闻是信息社会中的一种新型新闻形态,立足于对新近发生的事件予以数据支持,或者从大量数据中提取出可供报道的事实性信息。在制作过程中必须依靠互联网技术采集、处理和分析数据,通过可视化的表达形式制作发布新闻。

这一定义对方法论的界定也较为模糊,认为是“互联网技术”,笔者更倾向于将这种表述理解为一种生产数据新闻的方式。

2016年西蒙·罗杰斯终于为数据新闻下了一个定义:

数据新闻是结合了新闻业最好的技巧(包括数据可视化、简明的解释和最新的技术)和最好的可能路径用数据讲故事。它应该是开放的、易用的和具有启发性的。

西蒙·罗杰斯的这一定义强调用数据讲故事的方法和路径,并试图用“最好的技巧”“最好的路径”之类的表述,将其与1821年以来《卫报》用数据讲故事的新闻和21世纪的数据新闻进行区分,但他对数据新闻的边界仍没有厘清。

“综合说”是将“流程说”和“构成说”结合的一种定义方式。其代表性定义为:

数据新闻是基于数据分析和计算机技术的可视化新闻样式,它在新闻叙事中使用数据呈现原本仅靠文字所难以呈现的内容,或者通过数据分析发现问题,并进而挖掘出新闻故事。

为了便于理解和界定,笔者采用“构成说”的方式界定数据新闻的边界,认为:

数据新闻是基于新闻价值和公共利益,采用数据科学方法从各类数据中发现事实,通过数据可视化方法呈现数据的新闻样式。

与传统新闻相比,数据、数据科学和数据可视化是数据新闻三个独特的构成要素。“新闻价值”和“公共利益”是数据新闻中数据被选中的两个重要标准。“数据科学”方法指出数据新闻在方法论上与传统新闻的主要区别。虽然前文所述的一些观点认为数据新闻的方法论是统计科学 ,处理的是结构化数据 ,但随着数据新闻实践的发展,数据处理的方法已由统计学扩展到数据科学,由处理结构化数据扩展到处理结构化数据、半结构化数据和非结构化数据。“从各类数据中发现事实”指出数据新闻的生产客体是“数据”,通过数据反映并揭示事实;“事实”则指向数据新闻的目标和新闻属性。“数据可视化”则是指数据由“抽象”变“直观”的“转译”过程。

二、数据新闻与传统新闻的差异

数据新闻是新的新闻实践还是换了一种说法的“噱头”,在很大程度上取决于它的“特殊性”。数据新闻与传统新闻有何区别?它为何被称为“数据”新闻或“数据驱动”(data-driven)新闻?

有观点认为,数据新闻源于传统的调查性报道,是通过系统调查问题探寻故事的一种不同方式,是补充传统新闻报道方法的一套技能。

琳赛·格林·巴伯(Lindsay Green-Barber)认为数据新闻可以提供可信的证据来支持主张,用数据的方式向受众呈现信息,而非基于文本的叙事。 在这一点上,她与阿德里安·哈罗瓦的观点是一致的。

数据新闻是对用文本或表格形式不易感知的复杂关系的处理和呈现。 数据新闻之所以用“数据”命名,缘于以往的新闻报道以文字为主、数据为辅,或者是数字与文字并重,而数据新闻以数据为主,文字退居辅助角色。

在新闻价值要素中,数据新闻都实现了增值效应:全时性和预测性报道创新了新闻时新价值;长时段大样本数据的应用宏观全面地呈现事件影响;结构化数据语言揭示内在关系、凸显新闻要点;独到选题与可视化处理彰显新闻趣味。 数据新闻可包含长时间段的信息内容,具有某种深度报道的写作特点。 而对数据的使用则转变了记者的工作核心,从追求最先报道转向探寻某一事态发展的真正含义。

与传统的新闻报道相比,数据新闻是一种新的信息采集与加工过程。保罗·布拉德肖用数据新闻的倒金字塔结构来说明数据新闻的生产流程:数据的收集(compile)、数据的清洗(clean)、了解数据的背景(context)、数据的结合(combine)。

以“数据”为中心区分数据新闻和传统新闻似乎不足以解释继承者与前任的核心差异。有观点认为数据新闻强调的是“产品”的概念,产品强调商业模式,统一的开发、运营环境,而非构思文章、加工视频的作品概念。

笔者认为以上探讨从不同方面对数据新闻与传统新闻报道做了区分,将二者的边界逐渐厘清,但也要看到,数据新闻既与传统新闻报道不同,也与同样运用“数据”的其他新闻实践存在差异。

三、数据新闻与精确新闻、计算机辅助报道、计算新闻的关系

数据新闻本质上属于量化取向的新闻(quantitatively oriented journalism)。在欧美新闻学界和业界有几个彼此相关的概念:数据新闻、精确新闻、计算机辅助报道和计算新闻(computational journalism)。

精确新闻最早可追溯到20世纪50年代,当时美国记者利用计算机对数据库中的信息进行分析。20世纪60年代美国学者菲利普·迈耶(Philip Meyer)提出“精确新闻”的概念,于1973年出版了《精确新闻报道:记者应掌握的社会科学研究方法》( Precision Journalism:A Reporter's Introduction to Social Science Methods ),主张将社会调查方法应用到新闻传播实践,提高信息传播的科学性、真实性和客观性。自此精确新闻在美国兴起,随后传遍世界。

伴随着电脑的普及和数据存储技术的提高、计算机辅助报道的兴起,数据库逐渐成为记者发现新闻线索的重要来源。虽然计算机可以帮助记者搜集分析数据,但是计算机辅助报道首先是一种技术(technique),没有从根本上影响新闻生产流程。 从精确新闻到计算机辅助报道,二者的关系可总结为理念与手段的关系。精确新闻是一种新闻实践理念,计算机辅助报道则是实现精确新闻理念的一种技术手段。

数据新闻是否和计算机辅助报道一样也是一种手段呢?对此有两种观点。

一种观点认为,数据新闻和计算机辅助报道没有实质上的差异。 数据新闻和计算机辅助报道都是量化取向的新闻,通过定量分析的方式获取数据分析结果用于新闻报道。

另一种观点认为计算机辅助报道和数据新闻存在差异。(1)在承续关系上,数据新闻是计算机辅助报道发展到一定阶段的产物。数据新闻的兴起既有大数据时代的背景,更有新闻生产商业价值上的考虑。 (2)在新闻形态上,计算机辅助报道不是一种独立的新闻样式,而是一种报道方法,数据新闻注重整个新闻工作流程中处理数据的方式。数据新闻需要三种不同的新闻技能:计算机辅助报道、新闻应用开发和数据可视化。 所以数据新闻的内涵和外延比计算机辅助报道更广。 (3)在内容生产路径上,计算机辅助报道与数据新闻的区别在于生产合理信念(justified beliefs)的路径不同(见表2—1),计算机辅助报道是假设驱动路径(hypothesis-drivenpath),数据新闻是数据驱动路径(data-driven path)。

表2-1 假设驱动路径与数据驱动路径的比较

续前表

资料来源:SYLVAIN PARASIE S.Data-Driven Revelation?[J]. Digital Journalism,2015(3):364—380.

祝建华认为,从精确新闻的出现到计算机辅助报道的兴起,再发展到数据库新闻以及数据驱动新闻,这一演化过程并不是替代关系而是增量关系。 精确新闻倡导客观主义原则和社会统计方法,计算机辅助报道在此基础上实现了调查数据的数字化,数据新闻在承袭了以上优势外,通过数据可视化让报道更具可视性。

随着新闻业的发展,仅对精确新闻、计算机辅助报道和数据新闻进行比较和区分显然是不全面的。近几年在西方新闻界还兴起了计算新闻。马克·科丁顿(Mark Coddington)认为计算新闻是一种技术导向的新闻,重在计算和计算思维在信息采集、意义寻求、信息呈现上的运用,而不是一般意义上数据或社会科学方法的新闻学应用。 计算思维(computational thinking)是指运用计算机科学的基础概念去求解问题、设计系统和理解人类的行为,它的本质是抽象和自动化:抽象能力如抽象算法、模型、语言、协议等,自动化能力如系统、程序、编译等。 由于数据新闻对电子表单(spreadsheet)的利用多于算法(algorithm),因此不是所有的数据新闻都可被视为计算的(computational)。 马克·科丁顿从几个维度对计算机辅助报道、数据新闻和计算新闻的差异进行了探讨(见图2—2)。

图2-2 计算机辅助报道、数据新闻和计算新闻在四个维度上的差异

资料来源:CODDINGTON M.Clarifying journalism's quantitative turn:a typology for evaluating data journalism,computational journalism,and computerassisted reporting[J]. Digital Journalism,2015(3):331—348.

(1)在专业层面上,计算机辅助报道倾向于让记者成为专业行家(professional expertise),并限制新闻生产的参与性,实现记者对内容的专业控制。而数据新闻和计算新闻根植于开源文化,倾向于开放性和参与性。例如数据新闻虽然强调数据分析和呈现中的编辑选择、专业新闻评判,但是它在生产中向非专业人士开放(如众包)。计算新闻与数据新闻相比更强调网络协作生产,数据新闻强调叙事,计算新闻则倾向于生产一个有形的(tangible)产品或平台。

(2)在开放性上,计算机辅助报道深受传统新闻生产理念影响,生产并不透明。对开放数据(open data)和开源软件(open source software)的运用,让数据新闻生产更为透明。计算新闻虽然深受开源运动影响,但由于算法往往被视为商业机密,生产并不透明。

(3)从认识论看,计算机辅助报道的数据对象是抽样样本,而数据新闻和计算新闻的数据对象是大数据,相比较而言,计算新闻处理的数据量比数据新闻要更大。

(4)从公众的能动性看,计算机辅助报道在传统新闻生产理念影响下将公众视为“消极的”(passive),并未将其视为新闻生产流程中一个创造性的和互动性的部分。 数据新闻通过数据可视化或网络应用(Web applications)让公众分析和理解数据,计算新闻同样如此,它比数据新闻更进一步,提供工具让受众自己运用计算思维分析数据。二者本质上将公众视为“积极的”(active)。

(5)从量化取向看,计算机辅助报道根植于社会科学方法,具有调查性报道的审慎风格和公共事务的取向。数据新闻以参与式开放(participatory openness)和跨界混杂(cross-field hybridity)为特征。

马克·科丁顿对计算机辅助报道、数据新闻和计算新闻的比较让人直观地看到三者在不同维度上或大或小的差异。笔者不认同的是,数据新闻的数据对象并非都是大数据,根据笔者对英美主流媒体数据新闻实践的观察看,大数据新闻所占比重极低,结构化的小数据是目前数据新闻主要的处理对象。

对计算机辅助报道、数据新闻和计算新闻的差异,笔者基于以上讨论分析,总结出下表(见表2—2)。

表2-2 计算机辅助报道、数据新闻和计算新闻的比较 gAu8hO27ICPteBexg5JoNSqFybu7/YRKfPAA1+j70SaWUPItgY/8Mi7qhWOwSoqE

点击中间区域
呼出菜单
上一章
目录
下一章
×

打开