购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

01 大数据新闻:从理论概念到操作路线图

一、大数据新闻的历史沿革

进入20世纪以后,客观性和真实性已被新闻业界确认为新闻报道的基本信条,并且成为贯穿整个世纪新闻业变化的关键线索。从解释性报道到新新闻主义,从新新闻主义到调查性报道,从调查性报道再到精确报道,在不断的偏失与纠正之间,标准得以重新设定,意义得以重新诠释;在一个不断试错与纠错的过程中,新闻报道在朝着更客观、更真实、更易读的方向曲折前行。精确新闻报道的需求,促进了社会科学量化研究方法在新闻报道领域的广泛应用;计算机技术的提高与普及,推动了用数据库来挖掘新闻专题和数据驱动型报道的发展。大数据时代来临,则为个性化信息推荐和趋势预测性报道提供了更多的可能。

20世纪30年代,解释性报道注重挖掘并运用背景材料对新闻事实进行阐释,同时也不可避免地把主观性因素加入了报道中,对客观性原则形成巨大冲击。在60年代混乱且动荡不安的社会背景下,新新闻主义和调查性报道两种截然不同的报道形式同时出现:新新闻主义擅长用文学创作的手法对报道内容进行渲染,虽然丰富了新闻写作的视角,却彻底抛弃了对新闻报道客观性的追求,在《华盛顿邮报》记者因虚构新闻人物而被收回已颁发的普利策奖后,新新闻主义最终受到激烈批判而退出主流新闻报道领域。调查性报道则是面对暗杀、冲突、示威、战争、犯罪等社会阴暗面,强调从多个方面来搜集证据,以达到对事实最大限度的还原,无形中促进了新闻报道对于数据和证据双重要求的提高。即便如此,仍然缺乏系统性和科学性的范式来完成对新闻客观性的重塑。因此,在经历了半个世纪的发展过程后,精确新闻报道应运而生,这也是大数据新闻的源起。

(一)精确新闻报道:重建科学式的客观

精确新闻报道(Precision Journalism),又称精确新闻、精确新闻学,是基于科学的量化研究的新闻报道。精确新闻报道兴起于20世纪60年代的美国。1967年,底特律市黑人暴动骚乱蔓延,记者菲利普·迈耶在计算机的辅助下,对437位黑人的抽样访问调查结果进行了分析,在此基础上写出了系列报道《十二街那边的人们》,并于1968年获得了普利策新闻奖,这就是精确新闻报道的开端。随后这种报道形式开始逐渐在世界各国的新闻界得到认可和推广。

1973年,菲利普·迈耶在其著作《精确新闻学:一个记者关于社会科学方法的介绍》中,正式把精确新闻学定义为:“将社会科学和行为科学的研究方法应用于实践新闻的报道。”迈耶认为:“精确新闻是一种扩大记者的工具包的方式,使记者可以接触到以前无法了解的、只能粗略访问的或是受到新闻审查的主题。这对于了解少数民族和持不同政见者团体代表起了很大作用。” 在经历过新新闻主义对客观事实的忽视与扭曲后,精确新闻重新回到了对客观性的追求与信念上来,特别是在20世纪60年代以后,抽样技术和计算机技术在新闻媒体领域的广泛应用,为新闻报道提供了更高的精确度和更快的效率。

(二)计算机辅助新闻:从调查统计到4Rs

20世纪90年代,随着计算机技术的普及应用,计算机辅助新闻(Computer Assisted Journalism)在调查报道中的比例日益增加,也有助于精确新闻报道在技术上和精确度上的进一步提高。计算机辅助新闻起源于20世纪50年代,美国有媒体记者利用大型计算机对政府提供的数据库中的信息进行分析,以发现和调查新闻事实;1952年,哥伦比亚广播公司在计算机的辅助之下,对当年的总统选举结果进行了预测。这一系列的报道促使计算机辅助新闻兴起,记者们开始不断尝试运用科学的调查统计方法,从公共数据库中寻找需要的数据信息来完成调查性报道,履行监察政府、服务公众的使命。1967年,菲利普·迈耶基于底特律黑人骚乱的系列报道为社会带来了极富价值的公共服务,并为以后的数据驱动型报道打下了良好基础。

20世纪90年代以后,计算机辅助新闻在技术上和形式上更加丰富和细分化。人们继而把其内容概括为4R:计算机辅助报道(Computer Assisted Reporting)、计算机辅助调查(Computer Assisted Research)、计算机辅助参考(Computer Assisted Reference)、计算机辅助聚谈(Computer Assisted Rendezvous),它们又常常缩写为4Rs。 有了电脑的辅助,记者获取数据和信息的途径更为丰富,分析处理数据的效率和能力都有所提高,并且还能够通过在线交流、在线访谈等形式发现和收集社会舆论,发现新的新闻线索。

(三)数据库新闻:基于数据集的专题挖掘

上个世纪90年代,继计算机辅助新闻以后,西方新闻界又陆续提出了诸如“新闻采写2.0”,“数据库新闻”等概念,表明在科技化进程的推动下,新闻报道从生产方式到报道形态都逐步发生了颠覆性的转变。在21世纪初,记者们开始尝试从一些数据库中找一些数据集以便挖掘新闻专题,这些数据库既包括政府公开数据库,也包括媒体自己的数据库。在早期的数据库新闻里,没有基于数据的价值挖掘,也没有深度分析,只有对于原始数据的初步整合。报道中的数据只是作为新闻报道文字内容的辅助说明,即文字为主,数字为辅,没有更深的价值挖掘。这与大数据时代数据驱动型的调查性报道和深度报道有本质上的区别。此外还有“数字新闻”、“数字化新闻”等,都是在内容和形式上对计算机辅助新闻的补充。

(四)数据驱动新闻:数据过滤+可视化图表

“数据新闻”(Data Journalism)是基于数据挖掘与分析思维的新闻报道,也是数据驱动型的调查性报道或深度报道。2010年8月,首届“国际数据新闻”圆桌会议在阿姆斯特丹举行,对这个概念做出了如下界定:“‘数据新闻’是一种工作流程,包括下述基本步骤:通过反复抓取、筛选和重组来深度挖掘数据,聚焦专门信息以过滤数据,可视化地呈现数据并合成新闻故事。” 与计算机辅助新闻、数据库新闻相比,数据驱动的新闻,已经从根本上改变了新闻生产的思路与流程。

首先,从数据采集量上来说,数据新闻所采集的数据量已经远远不只是几个数据库或者是若干个图表这么简单,而是基于社交网络和移动互联网终端的海量信息采集。其次,新闻报道也脱离了过去文字为主、数字和图表为辅的表达形式,转而以数据和可视化图表作为新闻的主要内容和呈现方式,通过对数据的过滤和视觉化处理来讲故事,提升了数据和新闻的双重价值。最后,也是最重要的,数据新闻为新闻报道提供了人性化生产的可能:新闻生产者可以通过各个应用终端收集用户的信息,针对用户的兴趣偏好提供个性化信息推荐,让读者真正拥有“我的新闻”。

(五)大数据新闻:“悦读”体验+定制内容+预测性报道

大数据新闻是基于大数据分析思维的新闻报道,是数据驱动新闻更高一级的形态,代表了未来新闻发展的一种趋势。目前的大数据新闻更多是停留在实验性阶段,预计在2020年以后或者更晚一些的时间,大数据新闻的规模化生产会逐步到来。随着大数据分析在信息提纯和数据挖掘技术方面的提升,新闻生产在广泛嵌入和规模化处理信息方面的能力也会水涨船高,会把媒体报道的范围和创造性提升到前所未有的新水平,并以实践项目促进新闻职业理念创新。这种创新维度主要表现在数据驱动的调查性新闻、数据可视化叙事、数据驱动的应用三个层面。从社会表层现实的关注到社会深层现实的挖掘,有助于提供可靠的洞见和预测。可视化新闻叙事可适应受众理性认知和感性认知整合的需求。社会科学研究的方式会促进对事实及其背后的联系的探寻,采用的数据和分析数据的技术都是相对公开和客观的,这有助于媒体建立面对复杂社会问题时进行新闻报道的透明性。

大数据新闻是基于互联网逻辑的新闻报道,将逐步走向跨领域、跨平台的开放式、众包式合作生产,并将从目前先锋实验性质的形态转变为新闻报道的常态。新闻内容的价值来自于对数据价值的深度挖掘和关联性分析。大数据新闻的关键不在于数据本身,而在于用数据讲故事的能力,在于能否基于读者的不同的地域和兴趣图谱来进行个性化推荐和新闻定制,以及对未来趋势的预测性报道三个方面。当新闻阅读变成更加愉悦的体验,当定制新闻成为受众接收新闻的常态,当新闻报道可以对事件发展趋势做出更精准的预测时,大数据新闻的春天才算真正到来。

大数据新闻的历史沿革及时间路线见图2—1。

图2—1 大数据新闻历史沿革的时间路线

注:关于大数据新闻历史沿革的分类和时间路线,参考了香港城市大学祝建华教授2014年5月中旬在中国人民大学新闻学院讲座PPT里的内容。

二、解读大数据新闻

(一)本质:基于数据食物链的新闻生产

食物链是生态系统中的有机生物层层相互依存的关系,不同层级的生物形成了彼此联系的序列。而所谓的“数据食物链”,指的是大数据新闻在生产过程中,对各种类别和各种来源的数据采集和聚合的过程。“数据食物链”分两个层级:第一层是基于各种信息类别的源数据,具有混杂性和非结构性的特点;第二层是基于不同类别的信息采集平台,从政府的信源到民间的信源都具备。从各类信息采集平台到各类源数据的数据集聚过程,激发了各种资源的开放和共享;反过来,这种开放和共享也推动了源数据的再生产。见图2—2。

大数据新闻是围绕数据源点和数据加工展开的新闻生产和实践。从早期的采访调查,到如今通过网络超链接结构来获取数据与源素材,新闻生态已经发生了根本的转变。对于网络数据源的引用和共享的过程,可以看做是“数据食物链”的生成过程。引用源材料和挖掘数据背后的故事,成为大数据新闻生产的有效途径。网络数据公开和共享的特质,能更好地促使记者深入到信息源中,找到与报道主题相关的信息,去验证、推断并挑战被普遍接受的假设;此外,基于“数据食物链”的新闻生产,把新闻报道从过去的记者、社会科学家、统计学家、分析师、专家主导的专有领域扩展到了民间,促进了数据和新闻的无缝接入,推进了新闻生产的民主化进程。这不仅消除了人们查询和使用数据的壁垒,而且大规模提高了公众的数据素养,更加激发了“公民新闻”的活跃程度。

图2—2 大数据新闻的“数据食物链”

如图2—2所示,在大数据新闻的报道领域里,基于“数据食物链”,从传统媒体到社交媒体、移动媒体,从公共数据源到APP应用,从集约生产到网络众包,生成一个共同的数据采集平台。采集的信息从具象层面(如文本信息、图片信息)到抽象层面(如方位信息、心理信息)无一例外都可量化,汇总成为源数据的一部分。与精确新闻报道相比,这种基于“数据食物链”的新闻生产,跳出了传统新闻生产的单向过程,升级为一个随时互动的双向过程,形成一个有机循环产业链。来自信息聚集过程的问题反馈,进一步促进了各平台的信息的流动和生产,各个环节犹如生物依存关系,彼此依赖彼此关联。因此,要成为大数据新闻记者,先要熟谙“数据食物链”的集聚流程,具备专业的数据素养。

(二)多维性、随动性、精确性:大数据新闻的特点

1.多维性

大数据的真正价值不在于它的大,而在于它的全——空间维度上的多角度、多层次信息的交叉复现,时间维度上的与人或社会有机体的活动相关联的信息的持续呈现。大数据分析在方法论上需要解决的课题首先就在于:如何透过多层次、多维度的数据集实现对于某一个人、某一件事或某一种社会状态的现实态势的聚焦,即真相再现。

2012年12月20日,《纽约时报》推出全新的数字化专题报道《雪崩》( Snow Fall ),就体现了这样一种多维度、具有丰富层次感的全新报道思路。该报道由专题记者、普利策奖获奖作家约翰·布朗奇(John Branch)带领一个团队历时6个月完成。报道的灵感来自于对滑雪场上高死亡率的关注,总共由6个故事组成。在半年内,布朗奇和他的新闻团队对华盛顿州喀斯喀特山脉隧道溪(Creep Tunnel of Cascade Mountain)所发生的雪崩,进行了全方位、多角度的调查和信息采集,最后以集合了文本、图片、视频、数据等多维呈现方式的数字报道的形式出现在世人面前。在多媒体呈现方面,编辑使用了实际场景拍摄加信息可视化处理的形式,以类似电影的剪辑手法为辅助,通过景别的切换,加上数据可视化技术中被称之为“钻取数据”(Drill Down)的动态信息展示图,在视觉上给人以好莱坞大片般的冲击力。报道运用多媒体技术呈现出雪崩山脉的地形、大气环流图和雪崩数据的变化,并对雪崩场景进行了模拟再现。见图2—3、图2—4、图2—5。

图2—3 喀斯喀特山脉隧道溪的雪崩路线模拟图+视频说明

图2—4 山脉上方的动态大气环流图

图2—5 对相关数据的动画展示

2.随动性

大数据新闻的另外一个特点是随动性,即对时事局势灵活即时地做出应变分析的能力。

这方面典型的例子如央视和百度合作的“据说春运”系列新闻节目。

2014年初,适逢春运进入高峰,伴随着数亿人次的迁徙和奔波,与春运紧密相连的民生话题也随之增多,同时产生丰富多样的相关数据。央视“晚间新闻”栏目敏锐地抓住了这一选题,与春运期间百度基于LBS(位置的数据服务)大数据技术推出的“百度迁徙”、“景区热力图”两款产品结合,推出了令广大观众耳目一新的“据说春运”特别节目。

通过百度地图LBS大数据技术,观众每天可以看到各个时段人口迁入、迁出城市的热门迁徙线路。在此基础上,通过数据挖掘和顺序排名,还能洞察出很多数据背后的故事。比如“把父母接到大城市过年”这样的逆向迁徙,就作为春运的新特征被挖掘了出来,而与之相关的数据线索是春运期间成都—北京的线路跻身全国十大热门线路。此外,根据百度搜索的排名,“据说春运”还推出了“人均搜索次数最多的热门排行”,“送给丈母娘的礼物”等热门搜索榜上有名,作为对春运期间庞大的人口迁徙量和信息搜索量的一个有趣注脚,从另一个角度反映了民生。因此,“百度迁徙”也成了春运期间最接地气的大数据分析。见图2—6、图2—7、图2—8。

3.精确性

由于数据本身是混杂的、非结构性的,所以我们需要从这些貌似不相关的集合中,找到事件、人物、社会之间的有机联系,从而建立内在的分析逻辑,洞察哪些数据是最为关键的集合,并以此为依据,结合报道主题,为数据从属性上进行标签化的分类,以达到精确化报道的目的。

图2—6 2014春节期间全国8小时迁徙图

图2—7 “据说春运”逆向迁徙图

图2—8 “据说春运”人均搜索次数最多的热门排行

2011年8月,一名29岁的黑人男性平民马克·达根(Mark Duggan)被伦敦警察厅的警务人员枪杀,由此引发了民众上街抗议警察暴行。加上英国由于经济不景气、政府削减开支、高失业率而导致社会问题频出,在短短几日内,骚乱已扩散至伯明翰、利物浦、利兹、布里斯托等英格兰地区的大城市。自骚乱发生之日起,英国《卫报》的“数据博客”(Data Blog)栏目就应急启动了名为“解读骚乱”的项目,从骚乱的深度原因解析、示威群众的活动迁徙等方面对这一事件的前后经过进行了详细解读。

从图2—9、图2—10中可以看出,通过调查统计,贫穷是第一主因,认同比例占86%,政策是第二主因,认同比例占85%~80%;失业率是第三主因,认同比例占79%。这一数据有利驳斥了英国首相卡梅伦先前声称贫困并非导致骚乱的主因的观点。此外,还有81%的民众认为骚乱还会再次发生,53%的民众表现出城市共同体的成员意识。

图2—9 骚乱原因全面解析以及公众态度统计

图2—10 骚乱期间公众从住地向骚乱地点的迁徙动态图

(三)大数据新闻操作路线图

大数据新闻操作路线见图2—11。

图2—11 大数据新闻操作路线图

注:本图转引自乔纳森·格雷等编辑的《数据新闻手册:数据新闻入门》(中文版),见http://datajournalismhandbook.org/chinese/preface_4.html。 +XqudVmTyL3f6MXLNAgfxSaqYutYh+Em3orLTpxCLTIkMfa7IeIcaZQYIu9f6WMf

点击中间区域
呼出菜单
上一章
目录
下一章
×