数据新闻(data journalism)又称数据驱动新闻(data-driven journalism),顾名思义,数据在新闻报道中是驱动因素,生产活动围绕数据展开,对数据的处理包括抓取、清洗、理解、分析以及呈现。数据新闻可以理解为从数据中发掘新闻选题,利用数据来讲述故事的新闻形式。但对于数据新闻的边界,学者们却有不同的看法。比如,数据新闻更重视数据还是更偏重新闻?数据新闻的生产过程与传统新闻有何不同?数据新闻中的数据是什么样的数据?数据新闻和数据可视化有何区别?数据新闻是否可以被视为一种崭新的新闻范式?
本小节将从以上五个问题出发,探讨数据新闻的边界,并尝试给出数据新闻的定义。
数据新闻这一概念由英国《卫报》前编辑西蒙·罗杰斯(Simon Rogers)提出。2008 年,他在《卫报》网站的博文中写道:“我们的研发团队找到了一种能处理原始数据,也能进行数据映射的应用方式。这意味着我们能生产一种奇妙的、基于数据的互动图表。”
之后,西蒙·罗杰斯在《数据新闻大趋势:释放可视化报道的力量》一书中也强调了数据、数据处理和数据可视化是构成数据新闻的三要素。斯坦福大学的杰夫·麦吉(Geoff McGhee)曾担任《纽约时报》的媒体记者,他认为如今的新闻越来越与数据相关,媒体有责任向公众解释复杂难懂的数据。可见数据新闻从诞生之初,就跟数据处理和数据可视化密不可分。
英国伯明翰城市大学的保罗·布拉德肖(Paul Bradshaw)却认为,数据新闻是将新闻敏感性与运用数据讲故事能力进行高度融合的新闻形式。从这一角度出发,数据新闻的落脚之处在于新闻本身而非数据。
保罗·布拉德肖认为数据新闻是一种新的信息采集与加工过程,并用 4C的倒金字塔结构来说明数据新闻的生产流程,即数据新闻的制作过程包括数据搜集(compile)、数据清洗(clean)、了解数据的背景(context)、数据的结合(combine)。德国之声的记者米尔科·劳伦兹(Mirko Lorenz)也有类似的观点,她将数据新闻生产分为数据、过滤、可视化和故事四个环节。随着每个环节的向前推进,数据的价值对公众而言不断提升。
尼古拉斯·凯瑟·布瑞尔(Kayser-Bril Nicolas)在庆祝数据新闻产生 10 周年的文章中提到,数据新闻是使用结构化数据所做的新闻,结构化数据是可以被计算机处理的数据。事实上,随着数据新闻实践的不断发展,如今,数据新闻中需要处理的数据不仅包括结构化数据,还包括半结构化数据和非结构化数据。
数据新闻和数据可视化似乎是一对密不可分的概念,数据可视化是数据新闻生产流程中不可或缺的一环。数据可视化,指的是利用计算机图形和图像处理技术,将数据转化为直观、易于理解的图形或图像并在屏幕中显示出来。同时,数据可视化的应用范围更广,是一门涉及计算机图形、图像处理、计算机视觉和人机交互等多个领域的综合性学科。
数据新闻是一种崭新的新闻范式,还是一种“噱头”?
正如前面探讨的内容,数据新闻的生产流程发生了转变,对数据的处理贯穿整个新闻生产的过程。同时,数据新闻更强调“产品”的概念,而非传统新闻生产中对于文字的构思或对于音视频材料的加工。我们应该看到,数据新闻萌生于传统新闻之中,但是与传统新闻又有较大不同。它诞生于大数据时代,代表着未来新闻发展的新方向之一。
综合以上分析,笔者认为从构成要素上看,数据在数据新闻中有着举足轻重的作用;从新闻制作流程上看,记者和编辑通过数据统计和分析,依靠可视化技术进行新闻呈现;从数据形式上看,数据新闻中的数据包括结构化数据、非结构化数据和半结构化数据,形式多样;从新闻呈现形式上看,数据可视化是数据新闻重要的表现形式但绝非唯一的表现形式;从新闻范式上看,数据新闻以图表、数据、互动程序为主,以文字为辅,是一种区别于传统新闻的崭新的新闻范式。
数据新闻既是业界讨论的新兴新闻形式,也是学界的研究热点。国内外学者围绕着数据新闻的边界进行了讨论,对于数据新闻的定义也有不同的意见。《数据新闻手册》( The Data Journalism Handbook )将数据新闻定义为一种运用数据处理技术生成的新闻报道形式,它赋予了新闻工作者通过信息图表等视觉化手段来呈现复杂数据的能力。西蒙·罗杰斯为数据新闻下的定义则是:数据新闻是一种通过对数据的分析、挖掘来报道新闻的形式。他认为数据新闻结合了新闻业最有效的技巧(包括数据可视化、简明解释和前沿技术)和最佳的叙事方式讲述新闻故事。它应该是开放的、易用的和具有启发性的。我国学者们对数据新闻有其他定义,章戈浩认为数据新闻指的是利用分析与过滤所获得的数据,从而进行新闻报道的方式。祝建华认为数据新闻是用来分析和过滤海量新闻数据的工具,它通过对数据进行整合,从而挖掘新闻。方洁认为数据新闻是基于数据的抓取、挖掘、统计、分析和可视化呈现的新型新闻报道方式。
综合国内外学者的观点,笔者认为数据新闻是通过数据的挖掘和处理,将庞杂无序的数据梳理为清晰易懂的信息,并以数据可视化的形式呈现的新闻形式。
19 世纪 30 年代,在美国新闻业的“商业革命”中诞生了便士报,便士报的兴起开创了美国新闻史的黄色新闻阶段。美国新闻业由此开始走上“煽情主义”的道路,报纸内容强调趣味性且耸人听闻,而罔顾其社会价值。其中,最引人注目的是约瑟夫·普利策(Joseph Pulitzer)创办的《纽约世界报》( New York World )与威廉·伦道夫·赫斯特(William Randolph Hearst)创办的《纽约新闻报》( New York Journal )之间的黄色新闻大战。在这场激烈竞争中发展起来的黄色新闻,引起当时美国全国范围内报纸的效仿。黄色新闻的选题、内容以及文章的叙事风格充斥着暴力、色情、血腥等耸人听闻的要素,用以吸引读者,甚至有大量虚假新闻、策划新闻,采用大标题和可读性更强的版式等煽情主义的采写路径。但黄色新闻为调查性新闻的诞生提供了基础——挖掘和揭露腐败,特别是对商业和政府腐败的新闻报道。
19 世纪末 20 世纪初,美国处于从自由资本主义向垄断资本主义过渡时期,自由资本主义新闻理念支配下黄色新闻报刊转向基于社会责任论和客观报道的新式新闻事业。随着美国垄断资本主义时代的到来,社会问题凸显,擅长采写调查性新闻报道的“揭丑性”记者为迎合时代要求,利用源于黄色新闻
时期的调查性新闻报道利器,揭露社会弊端。由此,调查性新闻报道的采写路径及其力量得以发展。调查性新闻登上历史舞台,记者逐渐开始自发地寻找和揭露商业和政府中存在的腐败行为,以此作为新闻报道的重要内容。
1902 年,《麦克卢尔》杂志以有关商业垄断、人身保险欺诈、城市政府的政治欺骗和劳动工人阶层的问题等系列深度调查性报道,揭开美国历史上长达十余年的“黑幕揭发”运动。《麦克卢尔》刊登的第一个系列报道是记者艾达·塔贝尔(Ida Tarbell)披露的关于约翰·D.洛克菲勒(John D. Rockefeller)对于石油行业垄断的系列文章《标准石油公司发展史》( The His tory of the Standard Oil Company )。在此之后,普顿·辛克莱(Upton Sinclair)、林肯·斯蒂芬斯(Lincoln Steffens)、雷·斯坦纳德·贝克(Ray Stannard Baker)、雷切尔·卡森(Rachel Carson)等“揭丑者”继续发表了系列揭露垄断资本主义种种丑恶现象的调查性报道,倡导社会变革,引发轰动效应和国民思考。《柯里尔》《世界主义》等廉价刊物效仿《麦克卢尔》杂志,纷纷采写揭露丑闻的调查性报道。之后,《柯里尔》《世界主义》均成为继《麦克卢尔》后最具代表性的“揭丑者”杂志。
在美国垄断资本主义时期,“揭丑者”杂志和“揭丑者”记者抓住历史机遇,融入客观报道的理念,以调查性新闻作为有力武器,摒弃黄色新闻时期耸人听闻的调查性报道采写路径,大胆揭露美国垄断资本主义所产生的诸多社会弊端,引起强烈的社会反响。1917—1992 年,由约瑟夫·普利策所设立的普利策新闻奖颁发的 580 项新闻奖中,调查性新闻占 40%的奖项。调查性新闻在美国历次社会变革中发挥着揭露真相和倡导改革的功能,且从未停止。20 世纪 60 年代,调查性新闻声势更加浩大,持续时间很长,一时间几乎美国所有报刊都设立了调查性新闻报道小组。在这一时期,以调查性新闻报道的代表记者《华盛顿邮报》卡尔·伯恩斯坦(Carl Bernstein)和鲍勃·伍德沃德(Bob Woodward)采写“水门事件”的系列报道最为有名,这次报道最后使得尼克松总统引咎辞职。
调查性新闻强调对现象背后原因的科学式追寻,以及在调查过程中对证据的展示,其可以视为数据新闻的重要雏形之一。
调查性新闻虽然强调科学、准确地还原事实真相,但由于种种原因,也带有深刻的个人烙印。如爱波斯坦所言,新闻记者如果想要成为真实的挖掘者,必须用一种系统性和科学性的方法来查证事实。该方法在 20 世纪 60 年代末的美国悄然出现,这就是精确新闻报道。抽样技术和计算机技术在新闻媒体领域的广泛应用,为新闻报道提供了更高的精确度和效率。
1967 年,因种族歧视政策,在美国洛杉矶、底特律市发生了严重的黑人骚乱。各大媒体都在现场做了大量报道。当时,对骚乱发生的原因有不同解释:其中一种是专栏作家的观点,认为骚乱者都是社会最底层的绝望且沮丧的人群,因为他们没有其他渠道表达诉求和改善生活;还有一种观点认为,由于南方压制和奴隶制历史遗留问题的影响,骚乱者被迫成为被动的角色,因此,一旦他们离开南方,就找到了长期压抑后的发泄渠道。针对以上两种观点,供职于《底特律自由报》的记者迈耶和两位社会科学家着手进行问卷调查。针对第一种观点,他们做了以下假设:将骚乱者和非骚乱者进行比较,如果教育程度低的人群更容易成为骚乱者,那么第一种观点就是正确的。然而经过调查,大学毕业的人与高中未毕业的人参与骚乱的可能性一样,所以第一种观点被证明为错误的。针对第二种观点,他们假设:来自北方的移民应该比土生土长的北方黑人更加频繁地参加骚乱。然而,他们通过问卷调查得到的数据结果再次证明了第二种观点也是错误的。这些调查结果发表到报纸上后,引起了各界关注,并由此获得了普利策新闻奖。
1968—1972 年,美国总统选举调查彻底改变了精确新闻报道的地位。以美国三大电视网和新闻杂志为首,各大媒体都开展了民意调查活动。电视网甚至开发出自己的选举结果报道系统,资助获胜的竞选者,以获取其样本选区的监测数据,并用于他们自己的民意调查。1976 年美国总统选举标志着媒介进行的调查达到巅峰,几乎所有的媒体,包括许多地方媒体都自己开展问卷调查,并将问卷调查结果作为选举报道中的关键因素。这一时期给予了精确新闻报道广阔的施展空间,也使其在选举期间“大行其道”。1973 年,迈耶撰写了《精确新闻报道》一书,正式赋予这一报道形式正式定义:将社会科学和行为科学的研究方法应用于实践新闻的报道。自此精确新闻报道进一步发展,随后在全世界传播。
精确新闻报道非常依赖问卷调查等社会科学研究方法的应用,而由社会研究方法得到的数据也是当今数据新闻的重要数据来源之一。
20 世纪 90 年代,在精确新闻报道的实践理念影响下,计算机技术开始在新闻媒体中广泛使用,计算机辅助新闻由此兴起。随着计算机技术的普及应用,计算机辅助新闻在调查报道中的比例日益上升,这有助于精确新闻报道在技术上和精确度上有更多提高。20 世纪 90 年代以后,计算机辅助新闻在技术上和形式上更加丰富和细分化。人们继而把其内容概括为四类:计算机辅助报道(computer assisted reporting)、计算机辅助调查(computer assisted research)、计算机辅助参考(computer assisted reference)、计算机辅助聚谈(computer assisted rendezvous),它们又常常可以缩写为 4Rs。有了电脑的辅助,记者获取数据和信息的途径更丰富,分析处理数据的效率和能力都有所提高,并且能够通过在线交流、在线访谈等形式发现和搜集社会舆论,发现新的新闻线索。
数据新闻是否和计算机辅助新闻一样也是一种手段呢?对此有两种观点。
一种观点认为,数据新闻和计算机辅助新闻没有实质上的差异。数据新闻和计算机辅助新闻都是量化取向的新闻,通过定量分析的方式获取数据分析结果用于新闻报道。
另一种观点认为,计算机辅助新闻和数据新闻存在差异。在承续关系上,数据新闻是计算机辅助新闻发展到一定阶段的产物。数据新闻的兴起既有大数据时代的背景,又有新闻生产商业价值上的考虑。在新闻形态上,计算机辅助新闻不是一种独立的新闻样式,而是一种报道方法,数据新闻注重整个新闻工作流程中处理数据的方式。
笔者认为,从庞大的数据处理到后期的数据可视化,当今数据新闻的生产流程已经高度依赖计算机技术。数据新闻是计算机辅助新闻的升级版本和深度优化。
20 世纪 90 年代,继计算机辅助新闻以后,西方新闻界又陆续提出了诸如新闻采写 2.0、数据库新闻等概念。21 世纪初,记者们开始尝试从一些数据库中找一些数据集,挖掘新闻专题,这些数据库既包括政府公开数据库,也包括媒体自己的数据库。在早期的数据库新闻里,没有基于数据的价值挖掘,也没有深度分析,只有对于原始数据的初步整合。报道中的数据只是作为新闻报道文字内容的辅助说明,即以文字为主,以数字化为辅,没有更深的价值挖掘。数据库新闻与大数据时代数据驱动型的调查性报道和深度报道有本质上的区别。此外,数字新闻、数字化新闻等,都是在内容和形式上对计算机辅助新闻的补充,并不能称为“数据新闻”。
祝建华认为,从精确新闻的出现到计算机辅助新闻的兴起,再发展到数据库新闻以及数据驱动新闻,这一演化过程并不是替代关系而是增量关系。精确新闻倡导客观主义原则和社会统计方法,而计算机辅助新闻在此基础上实现了调查数据的数字化。数据库新闻不仅承袭了以上优势,还通过数据可视化增强了新闻报道的可视性与直观性。从调查性新闻、精确新闻报道、计算机辅助新闻到数据库新闻的兴起,数据从新闻报道中的背景材料逐渐演变为新闻报道的重要形式之一。这表明在数字技术的推动下,新闻报道从生产方式到报道形态都逐步发生了颠覆性的转变。