数据新闻何以诞生,并快速成为业界的一道景观?为何在英美等新闻业较为发达的国家,数据新闻被主流媒体更为积极地实践着?
有观点认为,在大数据浪潮的推动下“数据新闻”应运而生 ,它是大数据时代兴起的一种跨学科、跨领域的新闻生产方式 ,也是全球媒体应对大数据时代变迁所做出的关键革新 和产生的“红利” 。
数据新闻的诞生是否与大数据有必然联系?2011年6月,美国麦肯锡咨询公司发布研究报告《大数据:下一个竞争、创新和生产力的前沿领域》(Big Data:The Next Frontier for Innovation,Competition,and Productivity),“大数据热”由此开启。《卫报》的数据新闻实践1821年就已存在,当代数据新闻的理念2006年由阿德里安·哈罗瓦提出,2008年12月西蒙·罗杰斯正式提出数据新闻概念,从时间节点上看,数据新闻与大数据没有因果关系。从“数据”的含义看,阿德里安·哈罗瓦和西蒙·罗杰斯所指的数据是结构化数据,而非大数据。如果大数据催生数据新闻的说法成立,数据新闻处理的对象应是大数据,而目前国内外数据新闻实践仍以小数据为主,所以“数据新闻与大数据基本上是独立发展的” 。
数据新闻为何在21世纪的最初十年诞生?笔者引入发生学方法考察其诞生的必然因素。发生学认为事物的发生、发展有其内在的机制。 发生学方法是反映和揭示自然界、人类社会和人类思维形式发展、演化的历史阶段、形态和规律的方法。这种方法强调对研究对象进行动态的考察,注重分析历史过程中主要的、本质的和必然的因素。 如果仅停留在对先后发生的事件的阶段性描述上,没有指明其产生的深刻原因和发展规律,则不能称为发生学。
数据新闻的诞生有其特定的语境(context)。语境在语言学中指的是各种词汇的交织,单词或者语句的意义是由其存在的语段或对话决定的。一般来说,语境代表了“某物发生于其中的相互联系的条件” ,具体来看语境是一个关系范畴,不是一个独立自存的实体,也不仅指外在的环境,而是行动者及其环境之间表现出来的耦合状态,是不同事物间发生关系时表现出来的相关性。语境是一种“当下”的关系,具有“即时性”,这也是语境的“历史性” 。
数据新闻不是独立超然的自在之物,如果将其抽离社会语境孤立地考察,人们将很难理解它为何在这个特定的时空下产生。 考察当代数据新闻诞生的语境,不仅能把握数据新闻诞生的内在逻辑,更有助于深刻理解数据新闻的内涵。
有数据的地方就有数据新闻。 数据新闻是围绕数据展开的一系列生产活动。没有数据就没有数据新闻,没有足够的数据也就不可能有广泛、深入的数据新闻实践。数据从何而来?2005年兴起的开放数据运动为数据新闻提供了潜在的数据资源,也成为推动数据新闻诞生的重要政治力量。
开放数据是指可以被任何人、任何主体免费使用、再利用和再扩散的数据。 开放数据不是大数据,不是非结构化数据,而是政府手中涉及公众和公共利益的结构化数据。
开放数据运动与开放政府运动(Open Government Movement)密切相关,二者也深受开源运动(Open Source Movement)的影响。在20世纪80年代世界范围内兴起的开放政府运动中,公众要求政府从传统的公共行政转向公共治理,提高政府运作效率,提升社会治理水平。开放政府的内涵是“通过信息公开、数据开放、政府与公众之间的互动和对话、政府与企业和非营利性社会组织之间的合作,提升政府的治理能力” 。开放政府运动的动因是公众对政府的不信任,因而要求政府“开放”。开放数据、开放政府与大数据的关系见图2—3。
图2-3 开放数据、开放政府与大数据的关系
注:笔者对原图进行了修改。
资料来源:GURIN J.Big data and open data:what's what and why does it matter? [EB/OL].(2014—04—15)[2018—12—20]. https://www.theguardian.com/public-leaders-network/2014/apr/15/big-data-open-data-transform-government.
开放数据并不等于信息公开(见图2—4),政府信息公开的目的是保障公众的知情权,提高政府透明度,促进依法行政,侧重政治和行政价值;开放政府数据强调公众对政府数据的利用,重在发挥政府数据的经济和社会价值。政府信息公开侧重于信息层面的公开,而开放政府数据则是将“开放”深入到数据层面。 另外,政府信息资源再利用是指社会对政府信息资源的再利用,一般须事先得到政府部门的授权许可,而开放政府数据是免于授权的。
图2-4 政府数据开放、政府信息公开和开放政府数据的区别
资料来源:郑磊.开放数据的现实困境[J]. 网络传播,2016(4):48—49.
开放数据不仅仅是数据的免费获取,更重要的是多个数据源的数据连接起来后能产生无法估量的价值,在看似不相关的领域得到创新应用,使数据的能量层层放大。
21世纪初,开放数据运动首先由美国的技术精英发起,他们认为,“在互联网时代,无论是代码还是数据,只有开放……才能真正推动社会的进步” 。2007年12月,开放数据推动者在美国加利福尼亚州集会,制定发布了开放数据的8条标准和原则:(1)数据必须是完整的;(2)数据必须是原始的;(3)数据必须是及时的;(4)数据必须是可读取的;(5)数据必须是机器可处理的;(6)数据的获取必须是无歧视的;(7)数据格式必须是通用非专有的;(8)数据必须是不需要许可证的。
2009年1月,美国前总统奥巴马签署《开放透明政府备忘录》;5月,美国公共数据开放网站Data.gov上线,成为全世界第一个开放政府数据网站。该网站向公众免费提供用于数据研究和数据产品开发的可机读数据资源。 当年12月,美国政府颁布《开放政府指令》,提出开放政府的三原则是透明(transparency)、参与(participation)和协作(collaboration):政府应是透明的,透明要求政府有解释的责任,告知公民政府正在做什么;政府应是能参与的,公民的参与有助于提高政府的效率和决策质量;政府应是协作的,协作将让更多的公民参与到政府的决策过程中来。
现在,美国政府已开放了近20万个数据集,涵盖农业、商业、气候、消费、生态、教育、能源、金融、卫生、制造业、海洋、公共安全、科研、地方政府等领域。
2009年12月,英国政府发布《第一前线:更聪明的政府》报告,将开放政府数据和加强政府透明度作为国家的首要战略。2010年,英国前首相卡梅伦率先提出“数据权”的概念,承诺要为英国民众普及数据权。卡梅伦认为:“新的‘数据权’将确保人民有权向政府索取各种数据用于社会创新或商业创新。通过这些措施,我们可以创建一个最开放、最负责和最透明的政府。”
开放数据对于媒体而言不仅仅提供了数据这种“原材料”,更重要的是二者在目标上的一致性。开放的政府数据是公众监督政府的有效载体之一。在“第四权力”理念深入人心的西方新闻界,开放数据成为新闻业监督政府的有效方式。二者最终的目的都是维持民主制度的正常运转。
数据开放了,并不意味着公众可以正确、深入地理解与公共利益相关的数据,也不意味着公众会主动查询、搜集这些数据,在开放数据与公众之间还存在一条“数据鸿沟”难以逾越。对媒体而言,与公共利益相关的数据本身就是新闻生产的一部分,当大量数据开放时,如何利用这些数据资源洞察社会现实便成为一个重要的问题。在开放数据运动中,开放数据的推动者(如开放知识基金会)与新闻业建立了“合作”关系,让数据新闻具有与计算机辅助报道不一样的“政治气质”。“这种新的、经过改进的数据新闻能够履行一个极具价值的民主功能:变成一座桥梁——连接数据与世界,这是原始数据和理解数据方式的迫切需要。”
所以公众对数据新闻寄予厚望,不仅仅在于数据新闻的创新实践形式,还在于数据公开中蕴含的公正与公平元素。数据新闻实践将有助于新闻机构用更经济的方式从事调查性报道,监督政府,促进民主。
如果说开放数据运动为数据新闻的诞生提供了政治基础和生产资源,在技术领域的另一场运动——开源运动,则让数据新闻生产从“理想”走进“现实”。
1984年,美国麻省理工学院人工智能实验室研究员理查德·斯多曼(Richard Stallman)发起了开源运动 。斯多曼认为,计算机软件应当是自由的,如果不是自由的,就会出现由少数人统治计算机软件业的局面。 这项运动经过30多年的发展已经深入人心,直接推动了开放数据运动的展开。
开源运动的直接结果是开源软件的涌现。开源软件是指计算机软件以及构成其源代码的版权所有者允许任何人对其进行研究、修改和分发,并将其用于任何目的的用途。 开源软件与专属软件(proprietary software)的区别在于专属软件的软件代码是受法律保护的 ,而开源软件则不是。始于20世纪50年代的计算机辅助报道使用的是专属软件,这也被视为数据新闻与计算机辅助报道的区别之一。
开源运动所倡导的“开源”理念在技术上是一种透明的参与式编码,所有的源代码都能够被人使用和修改,修改后的源代码也可以被他人获得,这种“分享”理念是黑客伦理的核心 ,鼓励人们通过编写开放源代码的程序推动信息的获取和计算机资源的利用。
在新闻领域,开源软件为记者提供了低成本、高效率和极具创新性的新闻生产工具。数据新闻专家大卫·麦坎德利斯(David McCandless)认为,数据之所以越来越重要,不在于数据量越来越大,而在于记者有工具、有能力去分析这些数据。 西蒙·罗杰斯认为:“免费工具的出现打破了数据分析、数据可视化和数据展示的技术壁垒,使之不再是少数人的专利。” 这里的免费工具多指开源软件。
媒体为何使用开源软件而不是购买专属软件,主要原因在于:(1)在对数据的再利用、再加工前景不明的情况下,购买专属软件需要进行资金和人员投入,开源软件免费易得、操作简单,可有效降低投入成本。(2)专属软件的某些功能如需“定制”,必须由开发者完成,费用较高,而开源软件由于代码公开,媒体可依据自身需要,自行设计特定功能。(3)开源软件已经发展到一定程度,数据新闻生产相关的处理环节或者功能,开源软件基本上都可以找到相应的产品,无须购买专属软件。
数据新闻的行业语境是新闻业危机,包括信任危机和专业性危机。对于英美新闻业而言,创造并接纳数据新闻的动因之一是行业本身求生、求新发展的需要。
美国公众特有的基本假设之一是民主制度之所以繁荣兴旺,在某种程度上归结于新闻媒介传播的信息。 在新闻市场竞争中,传统新闻生产强调时效性和独家,侧重争夺注意力这一稀缺资源,却使真相成为真正的稀缺资源。由于利益集团的介入和“眼球经济”的刺激,新闻品质不断下降。新闻记者过分注重新闻事件,有意无意放弃了对新闻事实真相的追求,限制了新闻业在社会民主生活中的作用。
自21世纪以来,美国公众对媒体的信任度不断下降。盖洛普公司2016年的美国媒体信任度调查显示,仅有32%的受访者认为美国的新闻媒体有能力做出“全面、准确和公平”的报道,为1972年有该调查以来的历史最低。盖洛普公司的评价是“美国人对媒体的信任度正随着时间而降低” 。“报道有偏见”是美国人不信任新闻媒体的主要原因。
民调机构舆观(YouGov)对英国公众的媒体信任度调查显示,BBC记者最受公众信任,支持率为61%。在报纸方面,高级报纸支持率最高,为45%,小报的支持率只有13%。
新闻业信任危机不仅发生在英美,在不少发达国家新闻业的信任度也不高(见表2—3)。在路透新闻研究所发布的《数字新闻报告2016》( Digital News Report 2016 )中,英国和美国公众信任本国媒体的比例分别为42%和30%,信任记者的比例分别为29%和27%(见表2—3)。
信任危机对新闻业的直接影响是媒介权力的消解。媒介权力来自受众某种形式的授权,反映了社会成员对媒体服务公共利益的美好期望。 媒介权力依附于公众对媒介的认同程度,公众信任媒体,媒介权力才能实现。 一个没有媒介权力的媒介,无法获得社会的支持,也没有存在的必要。
表2-3 部分国家2016年媒体信任度
资料来源:NEWMAN N,FLETCHER R,LEVY D A L,NIELSEN R K.Digital news report 2016[EB/OL].[2018—05—23]. http://media.digitalnewsreport.org/wp-content/uploads/2018/11/Digital-News-Report-2016.pdf?x89475.
公众需要媒体是因为对真相的渴求,媒体之所以存在,在于媒体可以发现真相。反观现实,相当一部分新闻报道有“新闻”却无“真相” 。
进入21世纪,新媒体的发展挑战着以往以传统媒体为中心的新闻生产格局。技术的发展与赋权使海量信息的快速传播成为可能,也使辨别信息真假和对海量信息的审核花费的成本激增。弥尔顿设想的“意见的自由市场”的自净功能并未实现,很多情况下谣言往往“稀释”真相。当“信用”成为一种稀缺资源后,传统媒体面临新的机遇,即从“注意力市场”转向“公信力市场”(trust market)。 新闻业重建信任,需要一种新的新闻样式,这种样式应当有别于传统新闻,生产过程应当被视为可信的、权威的。类似科学知识生产的新闻类型无疑在公信力竞争上占据优势。
美国西北大学人文与社科学院教授布瑞恩·基冈(Brian Keegan)认为:“数据驱动的新闻可以为关于政策、经济趋势、社会变革的讨论提供更为坚实的经验基础。” 独立记者桑德拉·菲什(Sandra Fish)认为:“数据能对那些我们曾认为正确的假说提出质疑,但更多时候,数据能让新闻故事更确凿、更真实。” 数据新闻使新闻回归本质:挖掘公众无暇处理的信息,核实、理清信息的内涵后将其发布给公众。
所以数据新闻可以提升新闻业“第四权力”的地位,用软件可以实现更复杂的调查,发现其中的联系,而在过去,这些新闻没有被全面地报道,或者就从来没有被报道过。 数据新闻通过整合优势,让新闻重获合法性。
边界工作(boundary work)是科学社会学家吉尔因(Gieryn)在研究科学划界问题时提出的重要概念,即“科学家选择性地赋予科学体制(即其从业者、方法、知识存量、价值和工作的组织)一些特性,以建构一条将一些知识活动区别为‘非科学’的社会边界” 。在1983年发表的一篇论文中,吉尔因指出科学家在科学与非科学之间建构边界的三种策略:扩张(expansion)、排除(expulsion)和自主权保护(protection of autonomy)。 新闻专业建构边界亦是如此(见表2—4),通过以上三种策略,新闻专业维系着自身的边界,保持着自身的专业性不受侵犯或被替代。
随着公民记者在全球的兴起,专业新闻生产者的内容生产特权被打破 ,传播技术让任何人都可以用最小的成本成为记者,在消除了公共表达障碍的同时,也让媒介专业化技能被大规模业余化了 。只要具备基本的新闻敏感、专业知识以及采编技能,任何人都可以成为“记者”,即便不能获得主流媒体的认可,也可以借由自媒体和社交网络“发声”。当人人都是传播者时,“自媒体的政治社会学意义首先就在于它削弱并分享了传统媒体的媒介权力” 。如此一来,不再拥有垄断地位的媒体必须通过提供知识来争取自己的权威地位。
表2-4 新闻边界工作的形式
资料来源:CARLSON M.LWEIS S C.Boundaries of journalism:professionalism,practices and participation[M].New York:Routledge,2015.
与此同时,新闻业正在经历去边界化(de-boundedness)的过程。新闻业和其他公共传播形式的边界(如公共关系、博客和播客的软文等)正在消失。 从新闻业的角度看,去边界化的实质是新闻业边界的扩展,这是基于新闻业本身的内生发展和互联网技术外力挤压下产生的形态变异现象。
在这种情况下,开放数据为新闻业提供了一次提升专业门槛的契机。在开放数据运动中,有观点质疑:数据开放了,公众就被赋权了吗? 数据虽然开放了,公众却无法理解抽象的数据。尽管开源软件在搜集、处理、分析数据和进行可视化呈现上降低了门槛,但不得不承认的是,对于复杂问题的数据生产,并非一般公众所能胜任。于是在政府与公众之间需要一个中介(intermediary) ,将开放的数据转化为信息或知识给公众(见图2—5)。新闻媒体的职责是通过内容生产服务于公共利益,成为开放数据的可信赖中介,这也使媒体内容生产的专业性得到提升。
图2-5 新闻媒体中介下的开放数据生产流程
作为一种公共产品(public good),数据新闻正促进围绕数据展开的“民主对话”(democratic conversation),尤其是在社交空间(social space)的对话。 由于数据、算法都不是中立的,新闻记者的职责之一就是帮助公众区分好新闻与坏新闻。 “数据新闻赋予记者一种全新的角色,让我们成为一座桥梁或是一本指南,一头连接着掌握数据的权贵,一头连接着渴求数据的公众。” 数据可以让新闻业比以往任何时候都强大。 对新闻业而言,数据新闻成为新闻业“再专业化”的契机。