正如前面提到的,精确新闻又称精确新闻报道、精确报道,是结合社会科学方法,主要是定量研究的方法,采集跟报道主题相关的数据、相关资料来报道新闻的方式。在1973年菲利普·梅耶给出精确新闻的定义后,1981年,新闻学者麦库姆斯又提出:“所谓精确新闻学,就是要求记者用科学的社会观察的方法去采集和报道新闻,这些方法包括:民意调查、内容分析、亲自观察和现场实验等。” [1] 1987年,戴维(David Pearce Demers)和苏珊妮(Suzanne Nichols)也对精确新闻常用的调查方法进行了补充:“精确新闻最常用的两种方法是内容分析法和调查研究法,另外,实地实验的方法也曾被用到。”财经新闻是精确新闻报道应用较多的领域。
通过民意调查,会得到大量的数据。根据研究主题,记者和编辑需要对数据进行量化分析,比如说统计和比较等,而后对分析结果进行客观描述,利用数据进行辅助说明,再把有数据辅助说明的内容整合成为一篇完整的报道。所以,精确新闻也是“数字新闻”,但只是利用数字和图表做辅助说明的新闻,不是数据驱动的新闻。
为了防止读者对大量的数据产生厌恶感,或者因数据太多太散乱导致报道内容不突出,在必要的时候,除了数据以外,还得适量加上图表作为辅助。为了有效地传达数据信息,图表成为精确新闻报道另一个不可或缺的表现手段,而且,制作精良的图表可以让信息显得一目了然。精确新闻中的数据和图表,能够概括报道重点、突出内容精华,还能够充当信息导读,是精确新闻报道不可或缺的组成部分和特色。
总的来说,精确新闻最大的特点就是运用定量研究的方法来开展新闻调查。详细的研究计划是关键的第一步:先确定选题,制定具体实施计划,包括选择研究方法、确定调查对象、设计抽样方案和访问方法等。得到新闻报道所需的内容和数据后,就要对数据进行整合分类,用来为不同的内容做辅助说明,帮助读者对政府和公共部门以及社会形成有效监督,保证受众的知情权。
1994年,《北京青年报》开辟“公众调查”版(有一段时间叫“精确新闻”),以民意调查来反映公众对新闻事件的态度,引起了业内广泛关注,并引来其他主流媒体仿效。《北京青年报》不是国内第一家刊登民意调查结果的媒介,但它是国内第一家大规模投资介入民意调查并设立专版的媒介。伴随《北京青年报》“公众调查”报道的出现,“精确新闻”这种报道形式在我国真正兴起和发展起来。
《北京青年报》开辟的精确新闻报道专栏,当时有两个特点:一是广泛开展匿名问卷调查,为受访者提供了说真话的环境;二是一般都在京沪穗三地同时进行。比如说2005年针对“剩男剩女”的话题,就分别在京沪穗三地开展了抽样调查,白领阶层、父母阶层等社会各个层面都道出了自己的心声。此外还有对“超级女声热”的调查、“造星低龄化”的调查等。《北京青年报》的做法既保证了民意调查的匿名性,又保证了抽样的科学性,从而在最大限度上对民意进行了还原。
《财经》杂志和上海的《第一财经》也是运用精确新闻报道的典范,充分利用了数据新闻兴起之前的环境下新闻报道力所能及的所有层面。《财经》杂志以多次“揭黑”报道闻名,比如《基金黑幕》、《通钢悲剧》等,特别是汶川地震发生后,《财经》从轻率的经济增长、疯狂的公款挥霍以及建筑标准低下等方面,追根溯源地揭示了地震灾区伤亡惨重的深层原因。而上海的《第一财经》则更倾向于务实风格。和同期《北京青年报》的“公众调查”相比,《东方早报》开辟的“财经第一调查”的报道量要更大。《北京青年报》精确新闻栏目年总报道篇数为47篇,而“财经第一调查”则多达130篇,并且配有更加丰富的图表。2005年起,“财经第一调查”增加了图表的比例,精简文字,把每期报道的字数从1000字以上下降到700字左右,逐渐向图文并重甚至是图表为主转变,使得版面看上去重点明确,信息一目了然。
精确新闻尽管充分利用了数据来突出报道的重点,提升了报道客观真实的程度,但是由于数据样本量小,抽样方法不够科学,加上简单的数据堆砌,因此很容易误导读者,让读者在相对散乱的数据中失去方向。此外,如果说明不够充分,也很容易导致读者对数据的误读。比如说2004年,某报的一则报道中提到,新闻从业者的平均寿命只有45.7岁。但经过查证后发现,这个数据是根据2000年一个对已去世的在职职工的平均年龄的统计。报道采用了偷换概念的做法,把平均死亡年龄换成了平均寿命,这就造成了严重的数据误读。
尽管精确新闻是以数据信息作为自己的内容基础,运用了大量的图表,但是往往停留在对社会宏观概况的描述,无法深入到社会的深处和细处,因此,再多的图片和表格也显得表面化。这就要求记者除了采写数据,还应当以数据为起点和线索,拓展报道的广度和深度。
精确新闻的精确是说新闻信息的真实准确,利用数据说明做调查性报道的新闻,在专题和内容确定的情况下,数据说明会让新闻内容的报道更精确。而大数据新闻是通过数据讲故事的新闻,是数据驱动的调查性报道,报道的主题和内容,是通过对数据价值的挖掘和二次加工整合得来,数据本身就是新闻。大数据新闻和精确新闻的这一区别,在数据可视化上体现得尤其明显:在精确新闻报道中,数字和图表是对文字内容的补充说明;而在大数据新闻中,可视化图表本身就是报道内容,文字是补充说明,数据和文字的主次地位发生了根本性变化。所以两者的本质区别首先在于对数据的态度:是利用数据,还是由数据驱动?
大数据新闻和精确新闻的第二点区别在于对数据的分析:是基于数据精确度的因果关系的报道,还是基于数据混杂性的关联性的分析?
《大数据时代》的作者维克托·迈尔·舍恩伯格认为:在数据量庞大的情况下,会出现更多非结构化的数据,结构的混杂让人无法对所有数据精确归类,所以我们要接受混杂的事实。从某种程度上说数据新闻应该是混杂性的而不是精确性的,而国内很多学者都把数据新闻作为精确新闻的补充。其实精确新闻更像是用社会科学的研究方法做新闻,追求对数据精确度和因果关系的分析;而数据新闻则是基于数据混杂性对事物关联分析的追求,这种关联价值和事件全景描述通过数据挖掘和分析来实现。二者基于数据所做的分析存在本质上的不同。
计算机辅助报道的时代,信息匮乏是记者常常面临的难题,但是数据新闻的时代,信息的过于丰裕也是难题。如今我们面临的信息资源不是太少而是太多,多到记者不知道该如何使用它们,从哪一个角度挖掘它们的价值。正如菲利普·梅耶所说:“过去信息匮乏的时候,我们的精力大部分用于搜寻和采集信息。现在,信息丰富了,如何加工更为重要。”在计算机辅助报道的时代,电脑的主要功能是帮助记者采集和整合数据,以丰富报道的内容。而在数据驱动的新闻报道时代,电脑的主要功能就进化到了对数据进行二次加工和价值的深度挖掘上。
因此,大数据新闻和计算机辅助报道的区别主要在于:计算机在新闻生产流程中的功能是收集数据还是加工数据。计算机辅助报道是收集和分析数据以加强(通常是调查性)新闻报道的一种技术,而数据新闻注重整个新闻工作流程中处理数据的方式。在这个意义上,数据新闻也注重数据本身(有时比计算机辅助报道更甚),而不是使用数据作为一种手段来寻找故事或者增强故事的趣味性。
也就是说,计算机辅助报道是以文字为主、数据为辅的新闻,属于传统调查性报道或深度报道的范畴。它是收集数据并做简单的量化分析,用以加强新闻报道的一种技术手段,在新闻数据采集、量化分析、新闻报道的一系列流程中起到了重要作用。而大数据新闻则是运用大数据分析思维,注重数据聚集和深度挖掘,并由此导引出看似散乱无序的数据背后的故事。它是数据驱动型的报道,文字作为辅助说明。在大数据新闻中,数据本身就是故事,需要报道者具有把这种故事呈现出来的能力,比如说用数据聚类、内在逻辑分析、可视化图表等。英国《卫报》基于开放的应用平台建立的“数据博客”(Data Blog),就是用数据来讲故事的典范。有时候甚至只有数据集合或数据库的链接,让读者或用户自己来分析并发现,打造了一种开放、创新的新闻生产方式。这个阶段,网络上的数据资源是无穷无尽的,利用自媒体、众包生产等形式,数据的获得和加工将更加轻松。
“精确新闻具有深度报道的性质,尤以数字化信息见长。” 而大数据新闻可以视为精确新闻报道在大数据时代的进一步提升。大数据新闻不仅在报道的时效性、阅读的交互性和信息的可视化处理方面有了质的飞跃,而且在内容生产上,也体现了“开放、关联、对接”的互联网逻辑。
数据驱动的新闻使记者能够通过发现、分析和呈现基于大量数据的新闻故事,找到新的报道角度,并且更侧重于对问题之间相关性的分析。一则成熟完善的大数据新闻具有多个层面,能够在兼顾个性化细节的同时也对整体状况进行清晰的描述。
数据新闻使得新闻报道出现多种可能,源于新闻要素皆可数据化:在大数据领域,一切皆可量化,包括文本信息、方位信息、行为信息、情感信息、心理信息和关系信息等。比如维基解密网站将伊拉克战争中每一名阵亡将士死亡地点进行标注,将“方位信息数据化”;开源平台“Behavio”应用通过搜集手机等传感器信息流并制表分析,实现人类的“行为信息数据化”;为探究桑迪飓风之后人们的普遍情绪,Twitter开发的插件将文本数据分析及上亿鼠标点击量整合到坐标图中,呈现出接近“全样本”的情绪状况,将情感信息数据化,挑战了传统媒体“街采”随机抓取的单独样本的说服力。
迄今为止,尽管大多数媒体都有诸如“精确新闻”这样利用数据来做调查性报道的版块或栏目,但大数据技术的运用仍将使传统的精确新闻栏目或节目面临挑战。媒体需要在原先精确新闻的基础上进行升级,进一步挖掘数据中隐含的深意和价值。为了满足受众对新闻信息的深度需求,有必要以数据信息为出发点,再深入采访下去,探索隐藏在表象之后的深层含义。记者应围绕数据多问几个“Why”和“How”,通过深入挖掘背景事件,采访具有典型性的相关人物,在社会的多元关系中来探求数据背后的深层本质。在大数据新闻中要避免的是,生动的社会生活变成了文章中的一个个简单变量。这也就要求新闻工作者不能仅用数据说话,而应当始终以受众的需求为中心,生动具体地反映社会深层事实,表现数据后面的人性人情。
(1)大数据新闻增强新闻“现场感”
在社交网络和移动互联网越来越普及的今天,无论是社交媒体应用,还是移动互联网终端设备,都能够形成巨大的数据源,为大数据新闻报道提供更高的时效性保证。特别是手机、平板电脑等移动终端的数据,能够为新闻提供更即时、更具现场感的信源。
2014年3月24日晚,央视综合频道《晚间新闻》栏目播出了“据说就业”的报道。在报道中,央视多次引用百度就业指数,通过分析2014年校园招聘中的热门企业、最具前景行业、最受关注的热门公司、最具价值的资格证书等内容,让观众感受到了大数据给火热的就业新闻报道带来的别具一格的改变,使之更具现场感。“据说就业”超越了简单的新闻报道功能,提升了新闻报道的公信力,更能给就业者以实际的指导。有学生坦言,在艰难的求职现状中,百度大数据的分析犹如雪中送炭。
(2)专业数据库保证信源的可靠性
数据驱动的新闻报道,绝大部分的数据都来源于公开渠道或公共数据库,首先从信源上保证了真实性。其次,在大数据新闻报道处于前沿阵线的媒体,往往都会有意识地建立自己的数据库,除了英国《卫报》的数据博客外,还有《洛杉矶时报》的数据桌(Data Desk)、《金融时报》的数据实验室(Data Lab)等。有意识地运用专业数据库来服务于新闻报道,把新闻真实性提上了更具体化的层面。
从本质上说,大数据新闻是基于数据挖掘的精准新闻,是更全面的调查报道和更高品质的深度报道。传统的新闻讲求现场感、真实感;而在大数据时代,新闻的真实性已经超越了“5W”层面的要求,多维数据带来的现场感、基于专业数据库的相关性分析,把新闻真实性提到了新的层面。
由于数据来源的多样性和混杂性,大数据新闻能够在从属性数据 到多维数据、从“客观式报道”到“沉浸式报道”、从传统信源到“媒介社区资源”这三方面,完成对新闻报道客观性的提升。
(1)从属性数据到多维数据
大数据时代,一切皆可量化。新闻报道的数据已经从数字和图表这样的单一属性数据,过渡到了文本、图片、关系、情感、心理、方位信息等多维数据的层面。过去的调查性报道只要援引出具体数据,加上内容深度分析即可说明问题。而大数据新闻的报道视角则从单向度的内容研究转向了“内容+关系”的多维度研究。比如前面提到的基于Twitter的情绪分析等,都属于多维数据研究的范畴。
(2)从“客观式报道”到“沉浸式报道”
对客观性的追求是新闻报道永恒不变的主题之一,然而,在传统的新闻报道过程中,包括记者本身在内,都不可避免地要受到来自各方面的价值观、意识、利益追求的影响,并且受社会上层所控制,所谓的客观只是一种基于社会精英阶层的、具有倾向性的客观。
沉浸式新闻(Immersion Journalism)是深度报道的一种形式。记者深入新闻发生的环境,与新闻当事人近距离接触,这样写出的新闻更接近于体验式报道,但也不可避免地掺杂了记者个人的观点和感情色彩。一方面,对事件和人物的刻画更加直观和细致入微,但另一方面,也因为加入了报道者个人的主观色彩而备受诟病。然而在大数据时代,由数据驱动而非人的主观意识驱动的新闻报道方式,正在逐渐改变传统的精英式的客观报道方式。人们沉浸在信息洪流所带来的各种数据当中,如何整合数据、对数据的价值进行挖掘成为首要条件,弱化因果关系,强化相关关系,使得新闻报道能对人物关系或事件全景有更立体更清晰的认识。借助大数据的分析技术,既可以实现沉浸式报道对穿越社会表层的隐藏事实的深度发掘,又可以避免因记者的主观判断而带来的客观失真,从而给读者带来更好的阅读体验。
(3)从传统信源到“媒介社区资源”
调查法是“绞肉机”,以采访调查为主的信息获取方法很容易消除被调查对象在属性和个性上的差异,模糊被调查对象的个性化特征。而在大数据时代,可以充分利用基于社交网络和移动互联网的社区资源,扩大信源采集量。媒介社区是基于相似的社会群体的虚拟社区,有时候还结合了地缘相近性的因素。这些多样的渠道包括论坛、社交媒体朋友圈、热门讨论组或讨论群、专业网站等,总体来说,就是由社交媒体、移动媒体和各种即时通讯工具营造的互联网社区。由此,把来自媒介社区的资源作为数据来源的一部分,就破除了调查法对用户属性和个性的抹杀,可以提供事实更丰满、描写更全面的客观报道。
在大数据的支持下,《芝加哥论坛报》设计了多媒体新闻中心管理工具“实时流量监测”(Real-time Traffic Metrics)和内容管理工具“数码新闻港”(Digital Hub)。这两个是《芝加哥论坛报》多媒体新闻中心最常用的管理工具,由《芝加哥论坛报》自己开发,能够实时监测网站上新闻内容被点击情况:“实时流量监测”借助于大数据统计分析技术,网站上哪一条新闻被点击的次数最多、每一条新闻有多少人点击、每一条新闻在社交媒体上的转发情况等信息,都可以实时生成图表,被清晰地看到。在此基础上,“数码新闻港”会根据数据监测报告,配合受众的需要,在不同时间基于不同媒介向用户发送新闻摘要或全文。因此,这两者相互配合,既可以随时知道受众最关心的新闻以及热议的话题是什么,又便于向用户即时推送需要的新闻,这种基于“媒介社区资源”的合作可谓天衣无缝。
基于大数据分析的新闻报道,信息可以更鲜活、图表可以更互动、故事可以更生动。利用信息可视化设计,将数字型、文本型信息合二为一设计成可视化图表,再现数据、体现关系、表现重点、描述现状、整合内容、传达意见,把读者带入新的读图时代。
2014,随着央视“据说春运”、“据说两会”、“据说就业”等系列新闻报道的播出,“大数据电视新闻”进入观众的视野。这些系列报道积极探索了大数据电视新闻的制作流程,为未来创新新闻制作流程奠定了坚实的基础,更为我国在新媒介环境下如何发展数据新闻提供了一个具有启示性的模板。
“两会”期间,央视《晚间新闻》推出“数据哥”作为“据说两会”的主播,拉近了与观众的距离,成为两会电视新闻报道的一大创新。主播顾国宁的称谓从“数据观察员”变成了“数据哥”,节目还别出心裁地设计了“数据哥”的素描像,由老百姓最关注的热门词汇组成,比如医疗、教育、环保、网络安全、互联网金融,让观众一眼就能看到两会期间都有哪些热点话题。见图2—12。
图2—12 央视“据说两会”“数据哥”的形象
数据本身是中性的,它不存在任何偏向,只有在特定的语境中才被赋予意义。在图像时代,电视新闻视觉化的意义就是要把单一的数据通过信息图表呈现出来,这一过程是电视新闻工作者传递、解释新闻的重要路径。数据的电视化阐释是当代社会新闻生产的重要转向,也代表了电视新闻生产的一种新的思维。
如今,来自政府机构、媒体、企业的数据正以前所未有的量级单位飞速增长;此外,来自移动互联网终端的用户数据、地理信息,来自社交媒体平台上的内容信息、关系数据等,都大大丰富了新闻报道的数据来源。这时候,以往相对简单的数据调查和量化分析已经远远跟不上海量数据处理的要求。随着未来物联网技术的发展,信息数量的增长将超乎人们的想象,这也对数据处理技术和能力、不同领域的跨平台合作提出了更高的要求。在原有深度报道的基础上,基于大数据的深度分析和关联性解读,未来的新闻报道将会越来越注重“数据驱动型深度报道和趋势预测型新闻分量的增加” 。此外,数据采集的便捷和数据分析工具的普及,会促进个性化新闻的生产,使“我的新闻”成为现实。
电脑自动生成新闻即以事先设定好的算法和专业数据库为支撑,由电脑自动抓取相关数据并生成新闻报道的新闻生产方式。在大数据时代,这种即时、高效的新闻机器自动生成新闻的方式在体育、金融、科技等专业领域已经获得了广泛应用。
从2006年开始,国际金融资讯服务商汤森路透就一直在利用电脑生产部分新闻,根据设定好的算法,以庞大的数据库支撑,“电脑写手”通过调用数据库中的史料,可以立刻判断一家公司的业绩是高于还是低于预期,并在上市公司公布业绩后0.3秒就发布一篇报道。最重要的是,这样生成的报道没有任何错误。对于追求短、平、快的金融资讯报道来说,这无疑可以在时效性的追求上达到质的飞跃:“市场对速度的追求反映了自动交易的增长。许多对冲基金都希望获得可以嵌入程序并用于交易的直接新闻供稿”。 虽然汤森路透集团本身拥有超过百名记者组成的新闻业务团队,但加入电脑自动生成新闻的环节,一方面可以节约成本,另一方面也可以大大缩短向客户传递实时消息的时间,面对彭博社、道琼斯等竞争对手,可以在提高金融新闻的时效性方面抢占先机。
2014年3月18日,美国加州某地早晨发生了4.4级地震,而《洛杉矶时报》是首家报告这次地震的媒体,之所以能拔得头筹,也是“电脑写手”的功劳。《洛杉矶时报》的记者开发了一套用于地震新闻报道的自动编写系统,当地震发生时,该系统收到了美国地质勘探局电脑系统发出的信息,在三分钟内就完成了新闻的编写并发表在网站上。除此以外,《洛杉矶时报》还开发了类似的程序,通过自动连接警方提供的数据来报道犯罪新闻。不过报道哪个犯罪案件还是要借助编辑的选择,是一种人机合作的模式。
目前,许多媒体也开始尝试由电脑程序独立完成的形式或人机互动的形式来完成某些专业领域的报道。不过这种数据驱动的新闻应用程序仅仅局限于时讯类的报道,在调查性报道和深度报道方面,仍然无法替代真正记者的作用。电脑自动生成新闻或者是人机互动新闻可以在某些特定报道方面节约成本,提高时效,但只是作为辅助方式,可以在一定程度上把记者从繁重的工作中解脱出来,使他们有更多的时间思考更深层次的报道,同时也可以增强新闻工作的趣味性。
从调查性报道到精确新闻,以往的新闻选题主要是基于正在发生或已经发生的事实,但大数据技术驱动的众包、众筹式的生产方式已经对专业媒体这种传统的报道方式形成巨大的挑战。如果传统媒体能够利用大数据技术,与外界合作,比如像央视与百度合作,《卫报》与Twitter合作那样,借助互联网公司卓越的信息采集能力和数据分析技术,对新闻业务进行方向性调整,促使新闻报道向数据驱动型深度报道和趋势预测型新闻的方向倾斜,那么,就有可能重新占据一个新的制高点,来对传统媒体的价值进行重塑。虽然深度报道、全面调查仍然是精确新闻报道的永恒追求,但与以往建立在个体记者或者新闻团队基础上的调查性报道不同的是,未来越来越多的深度报道和调查性报道将是由数据驱动,或者是基于大型数据挖掘与分析而对事件发展趋势的预测性分析。
目前,虽然在医学、心理学和商业领域已经出现不少用大数据做预测分析的案例,但是在新闻报道领域做预测新闻报道的还寥寥可数。比较知名的有美国的纳特·西尔弗(Nate Silver)基于政治新闻报道理念创办的“538”博客。该网站致力于政治领域特别是政治选举议题的报道,作为《纽约时报》旗下的一个博客站点,由于在2008年成功预测了全美50个州中49个州的总统选举结果而名声大噪。“538”博客的主持者纳特·西尔弗并非新闻记者,而是一个统计学家。2008年预测奥巴马总统选举的成功,使他在整理和分析民间调查数据方面成为权威的专家,他的博客也成为政治新闻预测性报道的权威渠道。连奥巴马总统的竞选团队也请他作为指导顾问之一。他的独特之处在于:他利用各种公共渠道获取关于各选区的基本人口数据、就业数据、市场数据、既往投票数据等,把这些数据输入到他自己开发的统计预测模型当中进行预测分析。2012年,他又一次成功预测了奥巴马将有90%以上的机会赢得选举。“‘538’博客的报道在承认不确定性的前提下以严谨的逻辑支撑明确的结论,呈现出一种和传统报道样式迥异的风格。”
[1] Mcombs M.E., et al.,Precision Journalism, an Emerging Theory and Technique of News Reporting, International Communication Gazette , 1981(27).