国内外关于数据新闻生产的研究主要围绕数据新闻的数据再生产、数据可视化、数据新闻的叙事、数据新闻的日常生产、数据新闻的生产伦理和大数据新闻等方面展开。
数据再生产是通过对数据的采集、清洗和分析得出数据结论的过程,处于数据新闻生产的最前端,也是最重要的部分。“再生产”强调数据新闻是数据记者对数据的二次价值利用。媒体的数据再生产水平决定了数据新闻对现实的洞察、分析和解读能力。有关数据再生产的研究多围绕数据采集和数据分析等环节展开。
在数据采集方面,数据新闻的所有数据必须有来源,并经过交叉验证,在使用数据前,记者应评价数据的质量,如数据来源的可靠性、时新性,数据的搜集目的与方法等。 喜欢上网搜集数据的记者不能仅依赖网络和社交媒体,而应从多个不同的渠道采集数据,并将定量方法与定性方法相结合,以便检验数据,增强数据信度。
有研究对英国15份全国性报纸的上百篇数据新闻进行统计,发现这些报纸的数据多来自政府、企业、研究机构、国际组织、民意测验和媒体自采。其中通过政府获取的数据占比最高,通过申请信息公开和“泄露”方式获取的数据占比非常小。 记者不愿使用私营机构的数据,因为这种数据价格高、审查严,可信度不及政府和公共机构所提供的数据,且多不提供原始数据或收集数据的具体方法。 在数据开放不足的国家和地区,或涉及敏感议题的,数据记者倾向于自己采集数据。
戴玉总结了中国数据新闻生产可利用的六类数据——互联网企业数据、传统企业数据、政府公共数据、研究咨询机构数据报告的数据、外国机构发布的数据和自建数据库的数据,并对每种数据源的公开情况和利用方式进行了梳理。 采集数据需要评估其可信度,周宇博认为一套科学的能服务于数据新闻采编流程的数据来源评估体系,应着重从法律(数据生产者是否会为数据生产活动承担法律责任)、公信(数据生产者是否具备数据生产的公信力)、利益(数据生产者是否和发布数据存在利益关系)、程序(数据生产者的数据生产过程是否科学)、资源(数据生产者掌握数据样本的数量和质量)等多重维度考量,并对数据源的可信度等级进行了排序分析。
哥伦比亚大学学者马克·汉森(Mark Hansen)认为数据不是中立的,算法也不是中立的,数据告诉我们的故事经常是不完整的、不确定的和开放式的。 数据分析的结果看似公正客观,它的价值选择其实贯穿了从构建到解读的全过程。 数据新闻对客观现实的准确反映取决于数据来源、异质数据和数据处理分析中的模型和算法,而非数据量,数据相同但模型、算法不同,最后分析出的结果也可能存在差异。
在具体的数据分析方法上,有研究探讨了字符串查找算法、聚类分析、数据挖掘算法、协同过滤推荐和潜在因子推荐等方法 ,以及社会网络分析 在数据新闻领域的实践应用。目前数据分析中常见的六种错误包括草率拟代(sloppy proxies)、二分法(dichotomizing)、相关不代表因果关系(correlation does not equal causation)、区位推论(ecological inference)、地理编码(geocoding)和数据想当然(data naivete)。
2016年美国总统大选期间,美国各大媒体的数据新闻报道遭遇“滑铁卢”,甚至连续两届预测准确的538网站(FiveThirtyEight.com)也预测失败。相关研究探讨了这次数据新闻“失准”的原因。有分析认为民调数据系统性的样本偏向是主要原因,各种小概率因素聚合造成的数据偏向超过了数据处理者和新闻发布者的主观预期。 还有观点认为更重要也更容易被忽略的是参数问题,“发言者”和“投票者”往往并非同一群人。热衷在网络和造势活动上“秀存在”的是年轻人,投票率最高的却是中老年人,而数据采集却是依托网络和终端进行的原始参数的采集,出现如此偏差也就不难理解了。
除此之外,还有系统介绍数据再生产整个流程的案例研究。如史蒂夫·布斯特(Steve Buist)通过自己的计算机辅助报道奖(CAJ Award)获奖作品《情况危急》(Condition Critical)详细讲解如何用266个变量来评价“地方健康整合网”(Local Health Integration Networks)的表现。 比利时数据记者马腾·兰布雷希茨(Maarten Lambrechts)介绍了如何利用R语言的rvest包编写爬虫程序调查分析比利时弗拉芒大区议会议员的议政情况。
从总体看,数据新闻的数据再生产研究以国外研究成果为主,国内研究者多提出一些理念上的观点,缺少数据分析的具体操作经验,一些数据新闻研究者对大数据、算法、模型等数据科学中的核心概念与生产机制关注、认识和理解不足,数据再生产研究水平有待提升。未来数据再生产领域的研究应当结合数据新闻生产的实际,探讨数据再生产环节中的关键问题、常见问题,深化数据新闻的学术研究,才能给业界以启发和指导。
数据可视化(data visualization)通过数据库挖掘和展示数据背后的关联与模式,形象化地呈现对受众有价值的信息。它以数据为对象,围绕信息科学中的DIKW层次模型,即数据(data)、信息(information)、知识(knowledge)、智慧(wisdom),将数据转化为智慧,并起到清晰有效传达、沟通并辅助数据分析的作用。 作为数据新闻的呈现手段,数据可视化可以挖掘数据关系,发现深层意义;加大时间或空间跨度,揭示总体规律;实时采集受众数据,实现反馈信息向新闻内容的转化。 研究发现,当被测者在对某一话题没有鲜明的立场时,数据可视化可达到强大的说服效果,反之效果微弱。
数据可视化主要分为针对数值型数据的可视化、针对文本型数据的可视化和针对关系类数据的可视化。 设计时通常包含五个步骤:(1)设计者理解数据,洞察数据的新闻价值;(2)明确可视化目标;(3)选择呈现形式;(4)构建可视化场景;(5)完善视觉效果。
在数据可视化形式的运用上,陈昌凤以《华盛顿邮报》为例探讨了如何用结构化数据制作成地图,呈现数据新闻的方法 ;郎劲松、杨海探讨了交互地图、动态图表和信息图在数据新闻中的具体应用 ;方洁、胡杨认为在制作地理数据新闻时最重要的原则是遵循科学原则、选择最新的数据、以地图反映变化、地理标记需准确和清晰、秉持开放理念、及时更新数据 。
有研究通过对BBC、《卫报》和《金融时报》交互团队的短期观察及半结构性访谈,发现传统的新闻价值标准在交互设计中不占主导地位,交互设计的专业标准并无一定之规,并非所有的交互设计都遵循用户导向(user-centred design)。 徐少林、白净总结了数据新闻可视化设计与内容如何平衡的方法:运用扁平化形式做减法设计、运用对比与统一色彩形式做减法设计、运用网格版面空间形式做减法设计。 海伦·肯尼迪(Helen Kennedy)等人研究了数据可视化的惯习生产,包括二维观点创造客观性、形状和线条创造秩序、简洁的版式创造简约、数据来源创造透明性。
当前数据可视化生产也存在一些问题:一些媒体为了可视化而可视化,数据可视化作品过分注重形式和视觉冲击力,形式大于内容,遮蔽了数据的重要价值与意义,误导受众;还有一些数据可视化作品对数据挖掘的深度不够,在设计上缺少对受众的细分。
刘涛从视觉修辞的理论和方法视角切入,探讨西方数据新闻的视觉框架,从数据、关系、时间、空间、交互五个微观修辞实践入手,剖析其深层的话语生产机制,将数据新闻的数据可视化理论研究进一步深化。
现有数据可视化的探讨着眼于应用层面,多探讨功能、技巧,多从视觉传播的角度 探讨作为数据新闻外在形式的视觉文本,较少涉及理论,较少从视觉文化的批判视角深入剖析。笔者认为,数据可视化不是“中立的”“透明的”,对受众而言,数据可视化渗透着意义生产,数据可视化的功能不止于信息传递、审美表达,更在于说服和认同。数据可视化生产研究还应当侧重批判的、思辨的研究路径,聚焦视觉快感下的意义生产和话语表达。
数据新闻不等同于在新闻报道中直接引入数据分析方法或可视化技术,其核心仍是新闻叙事 ,这种叙事建立在新的技术与理念的基础上 。数据新闻生产以“新闻故事概念”发端,数据的处理、分析和视觉化呈现都围绕“故事化”这一主线进行。数据新闻表面上是数据的分析和呈现,而实质上是“新闻故事”的呈现,只是呈现方式、驱动机制与传统新闻不同。 有研究认为数据新闻的叙事模式可分为线性模式与延伸模式、利基模式与类比模式、组合模式与网状模式。 也有研究从叙事聚焦的角度将数据新闻分为宏观叙事与深度叙事,这两种聚焦模式跳脱出传统新闻一事一报的常规。
数据的复杂性决定了新闻更应注重故事化叙事,以人性化视角进行数据挖掘,对数据进行“语境化”处理。 受阅读方式、数据呈现与新闻叙述的三重驱动,数据新闻故事化以“可视化”“相关性”和“看图说事”为主要思维路径。 而《纽约时报》的数据新闻叙事具有全媒体、互动性、游戏化、移动式特点,是对传统新闻一元叙事的革新。 但从历时的角度看,数据新闻由于基于数据而不是个体事件,在建构社会现实上呈现出“相对稳定”的特征。在2012年美国大选报道中,传统新闻报道呈现出冲突的民调、矛盾的专家视角。记者构建了一个不稳定、反复无常和竞争的叙事,而数据新闻结合近期和过去的民意测验、历史上的投票信息以及经济形势,用贝叶斯逻辑(Bayesian Logic)和概率科学预测投票结果,准确预测了奥巴马获胜,构建的却是一个稳定的叙事。
当然,数据新闻的叙事并非完美。有研究以央视“‘据’说”系列为例研究发现,尽管大数据技术提升了电视新闻的可视性,但数据呈现并没有成为新闻叙事的有机元素,现有的编排方式还无法满足潜在受众对大数据新闻的特定预期与需求。 有研究对新浪网和新华网可视化报道的实证分析发现,目前主流可视化报道呈现新闻叙事主干模糊、叙事链条断裂的倾向,其碎片化的叙事结构割裂了受众认知的整体观。
交互技术在数据新闻生产中的应用越来越多,一些研究关注交互叙事,陆朦朦通过研究2014—2018年全球数据新闻奖获奖作品发现80%以上的新闻作品处于低级交互与中级交互的互动水平,并提出主线索引导模式、间断性过渡模式和多线程触发模式等三种数据新闻互动叙事模式的观点。
当然,也有一种观点认为,数据新闻不存在叙事。曾庆香以全球数据新闻奖获奖作品为样本,分析了数据新闻的类型、追寻事实的方法以及写作模式证明数据新闻是一种从属于社会科学研究的论证。笔者认为这一观点有待商榷。首先,全球数据新闻奖获奖作品能从多大意义上代表全球数据新闻业的现状和实践全貌是一个问题。其次,通过笔者的粗略观察,在叙事方面,日常数据新闻不仅有叙事,还创新叙事。方毅华、杨惠涵认为作为一种社会需求与新闻行业的互利成果,数据新闻还没有脱离公共新闻作品的范畴,它依然要依靠独白式和视觉化的叙述吸引大众读者,因此不能作为纯粹的社会科学实证报告进行分析。
笔者在梳理国内外文献时发现,许多研究谈“叙事”,往往将其视作一种角度或理念,并未真正运用叙事学的理论方法,也没有从叙事角度创造性地运用相关理论进行研究。大多数研究没有从批判的视角看待数据新闻文本问题,落脚点往往在数据新闻文本的表达技巧与表达效果,忽视了数据新闻叙事中的话语与意识形态,将数据新闻的文本生产仅仅视为一种“技巧”层面的操作。
数据新闻的日常生产主要着眼于媒体的实践经验、个案和比较研究。依照平台划分,其相关研究主要聚焦在新媒体和电视平台上,对报纸的数据新闻研究则较少。
对新媒体平台的研究主要集中在国内外知名媒体的数据新闻生产研究上,如财新“数字说”、网易“数读”、新华网“数据新闻”、澎湃新闻“美数课”、新浪、“为了公众”网站(ProPublica)、英国广播公司(BBC)、《卫报》、《纽约时报》、《华盛顿邮报》等。其相关研究多以媒体或媒体中的数据新闻栏目/节目为个案,从业务操作的角度进行总结、分析,其中多以经验介绍为主。
对电视平台的数据新闻生产研究主要关注央视推出的一些大数据新闻节目,相关探讨见后文大数据新闻的研究综述。
在国外媒体数据新闻日常生产研究中,《数据新闻手册》( The Data Journalism Handbook )在《新闻编辑室的运作》一章中介绍了澳大利亚广播公司、BBC、《卫报》、《芝加哥论坛报》、Zeit在线(Zeit Online)的数据新闻制作经验。 黄娟从BBC数据新闻的定位、团队、数据资源、生产资源整合等方面总结BBC数据新闻实践。 曹紫旖、薛国林分析了ProPublica网站中调查性报道的各类数据新闻,从后台数据采集、互动图表设计、共享数据平台及传播效果四个方面,分析在社会化网络媒体背景下,基于开放意识的数据新闻生产在多个层面进行的互动设计。 黄超以《卫报》“解读骚乱”专题为例,探讨了《卫报》如何利用数据分析、呈现复杂社会议题。
还有一些研究聚焦数据新闻生产面临的问题,如选题过于局限,缺乏国际视角 ;数据源开放程度低,数据监管不力;新闻从业者数据素养偏低,数据处理能力有限;可视化技术滥用问题突出;专业化数据新闻团队建设有待加强 。
数据新闻的日常生产研究一般为个案研究,多用思辨的方法对典型案例进行总结,较少运用定量分析方法进行实证研究。还有少量的比较研究是集中在国内媒体间的比较。实际上,目前中国数据新闻实践落后于英美主流媒体是不争的事实,但在哪些方面有所欠缺、差距有多大,不是举几个例子、将最好的数据作品进行对比就可以得出的。对媒体而言,日常生产是主流,优秀作品永远是个例,探讨日常数据新闻生产不仅需要中外比较,还需要设置可比较、可量化的框架。
现阶段国内外数据新闻的生产伦理研究较为薄弱,随着数据新闻实践的深入,相关研究亟待加强。
在国内,有学者指出缺乏专业规范的数据新闻正在逐步蚕食这个领域的公信力和专业价值,使之丧失竞争优势,呼吁专业规范的建立。 保罗·布拉德肖(Paul Bradshaw)发表的“数据新闻伦理”(Ethics in Data Journalism)系列文章虽然从准确性、语境为王、数据抓取、保护消息来源、隐私等方面探讨了当前数据新闻生产中的伦理问题 ,但是数据新闻生产伦理不仅限于这些方面,一些更为核心的生产伦理,如客观性、透明性,却未曾触及。
2016年美国大选中美国主流媒体的数据新闻令人失望,在笔者看来,造成这种状况的很大一部分原因是未严格遵循数据科学的相关标准。如果要将数据新闻确立为一种“专业实践”,让人信服,必须对生产伦理进行深入探讨、达成共识,形成一个业界共同遵循的实践规范,这是实践所需,也是业界、学界当下要思考的重要问题。
大数据时代来临,大数据新闻被视为未来数据新闻的发展方向之一。基于大数据挖掘和分析的大数据新闻报道侧重数据驱动型深度报道和区域预测性新闻。 尽管大数据新闻发展前景广阔,但大数据新闻生产依然存在诸多不足,若想让大数据新闻对新闻生产理念和方式发挥较大影响力,新闻工作者须在实践中引入更多思考和创新,增强多元化媒介的数据整合、提升数据驱动下的新闻深度、实现动态可视化的交互体验。
大数据新闻在中国数据新闻中被经常提及,在国外的数据新闻研究中并不多见,这可能与目前中国的大数据新闻案例相对较多有关。国内有关大数据新闻的研究多聚焦在央视推出的《“据”说两会》《“据”说春运》《数说命运共同体》等一系列大数据新闻节目上。如有研究探讨央视从《数字十年》到《数说命运共同体》的电视数据新闻生产实践的演变 ,还有研究探讨《“据”说两会》《“据”说春运》在数据解读和视觉表达上的特点 以及《数说命运共同体》的整个生产流程。 《数说命运共同体》虽广受好评,却存在用数据解释新闻的问题,较少从数据中挖掘新闻,采用闭合式的叙事结构,与网络的互动性不足。
值得注意的问题是,一些文章虽然在谈大数据新闻,但是分析案例却是小数据新闻,体现出一些研究者并未真正理解大数据。央视大数据新闻中的大数据挖掘与分析环节均为外包,自身并无大数据的采集、加工和分析能力;《金融时报》等媒体目前可独立从事大数据新闻生产,却未见国内外学者的引介和研究。大数据新闻的功能、价值以及对媒体如何布局大数据、适应大数据时代的传媒发展是现阶段应当重点探讨的问题。