无论把数据新闻看作可视化技术在传媒领域的应用结果也好,还是将可视化视作数据新闻实践流程中的一环也好,有一个事实是可以肯定的:数据可视化的若干前期基础和技术可以在数据新闻的可视化实践中加以运用。而且,1.3节中也讨论过,在数据新闻中进行可视化时或许会涉及科学可视化、信息可视化和可视分析学三个数据可视化分支,不过,现阶段以信息可视化为主。陈为等学者在《数据可视化》一书中,从空间标量场可视化、地理信息可视化、大规模多变量空间数据场可视化、时变数据可视化、层次和网络数据可视化、文本和文档可视化、跨媒体数据可视化、复杂高维多元数据可视化等几方面对数据可视化方法和技术进行了分类讨论 [31] 。任磊等学者在《大数据可视分析综述》一文中,也对面向大数据主流应用的信息可视化技术做了总结,将其分为文本可视化(包括标签云、语义结构可视化等)、网络可视化、时空数据可视化、多维数据可视化(包括散点图、投影、平行坐标等)几类 [7] 。数据新闻实践中也常用到其中许多可视化技术,不过,正如1.3节所述,在其具体可视化方法、表现(表达)形式等方面,数据新闻也有自身的考虑和侧重点。例如,目前数据新闻实践中处理的许多数据都不是传统意义上的“大数据”,同时,还要兼顾广大新闻受众对可视化内容的接受能力。正是基于诸如此类的种种原因,数据新闻中的可视化技术以成熟的可视化技术为基础,但也存在一些改良,形成了自己的特点。因此,在陈为等学者 [31] 和任磊等学者 [7] 对可视化方法、技术所做分类的基础上,我们结合当前的数据新闻实践(主要为国内数据新闻实践),通过举例来讨论数据新闻中一些常见的可视化技术类型。它们并不代表全部常用技术,只是借此让读者对数据新闻中的可视化形成更深刻的认识。
统计图表旨在用点、线、面或具体事物形象等几何学的基本度量来表示制图对象的规模、水平、结构、相互关系及发展变化过程 [34] ,常见于科技论文中 [35] 。联合国欧洲经济委员会(The United Nations Economic Commission for Europe,UNECE)编纂的《使数据有意义》系列手册中的第二部《统计数据可视化指南》,将统计图表归为一种传统可视化工具(技术) [36] 。陈为等学者在《数据可视化》一书中也指出它是最早的数据可视化形式之一,且至今仍被作为一种基本的可视化元素而广泛采用 [31] 。其类型很丰富,大众熟知的条形图、柱状图、折线图、饼图、散点图等都属此类。
统计图表在数据新闻中运用得非常多,而且,为丰富视觉表达,数据新闻中常运用象形图这一类统计图表。象形图以实物为依据,通过艺术加工绘制成各种“象形符号”,通常包括五种:长度象形、单位象形、平面象形、主体象形和外加装饰的象形 [37] 。例如,本书3.1节例3-1中所绘制的柱状图(见图3-1)就是一个象形图,该图所讨论的主题与景区有关,因此使用了代表景区的小房子图形(后文称“景区图标”)来填充柱形,一个景区图标代表三个景区,属于单位象形。新华网《数据新闻》栏目的报道《管教≠管“叫”,“咆哮妈妈”让孩子很受伤》 中也有一个象形图,在柱状图的基础上以母亲的形象为外观,展示对身边是否存在“咆哮妈妈”的调查结果。该图中,结果分为四项,分别为非常普遍、普遍、一般、不多,每一项对应柱状图中的一个柱形,所反映的是各项的占比,且分别使用了一个不同的母亲形象来代替传统的柱形,例如,“非常普遍”这一项对应了一个发火的母亲形象,而“不多”这一项对应了一个微笑的母亲形象。各项占比的具体数值大小则由母亲的身长来反映,属于长度象形,例如,“普遍”这一项的占比最高,因此对应的母亲身长最长。
信息图也是数据新闻中很常见的一种可视化形式。它将数据、海量信息及复杂逻辑关系通过文字、色彩、图像、符号等视觉语言简单化、直观化,达到清晰、高效传达信息的目的 [38] 。严格来说,信息图和统计图形学都属于信息视觉设计的主要领域 [31] 。信息视觉设计是与数据可视化密切相关的学科领域,像统计图形学中的许多方法(如散点图、热力图等)同样也是信息可视化的最基本方法 [31] 。国内许多媒体在数据新闻报道中都经常使用信息图。例如,新华网《数据新闻》栏目的报道《互联网时代,你有多久没写字了?》 中使用了一张信息图来展示握笔的正确姿势。该图是一张手握笔的示意图,图中对手的若干部位用圆点、圆圈或线条进行突出标记,并针对各标记部位添加了简洁的注释,以说明握笔时该部位的正确姿势或应注意的细节。显然,这种用信息图进行描述的方式比单纯使用大段的文字进行描述更加直观、生动。
由于信息图和统计图形学都属于信息视觉设计的主要领域 [31] ,它们在实际运用中自然是密不可分的。有学者就认为William Playfair发表于1781年的苏格兰进出口情况柱状图表 [39] 已对信息图的一些本质特征有所展现 [40] ,也有学者将柱状图、饼图等统计图表看作信息图的组成部分 [41] 。不过,相比应用于科技论文等领域的统计图表,信息图中的统计图表更注重视觉表达效果。在数据新闻中出现的信息图也常与统计图表紧密联系,而且,很多时候,统计图表中的象形图也可以看作信息图。1.4.1节提到的新华网《数据新闻》栏目的报道《管教≠管“叫”,“咆哮妈妈”让孩子很受伤》中用于反映身边是否存在“咆哮妈妈”调查结果的柱状图(象形图)就是一个例子。如前所述,它在柱状图中以母亲的形象作为外观,通过母亲的身长反映数值大小,而且,针对“咆哮妈妈”现象“非常普遍”“普遍”“一般”和“不多”四种不同情况,使用发火、微笑等不同的母亲形象(表情),从而实现了更生动的诠释。
词云(Word Cloud)又称“标签云”(Tag Cloud),是文本可视化的技术之一 [7] 。文本可视化旨在直观展示文本的语义特征,如词频与重要度、逻辑结构、主题聚类、动态演化规律等 [7] 。更具体地说,词云是文本内容可视化的一种技术 [31] ,它按词频或其他规则对关键词排序,再用大小、颜色、字体等图形属性对其做可视化并按一定规律布局和呈现 [7] 。除文本内容可视化外,文本可视化的研究范畴还包括文本关系可视化和文本多层面信息的可视化 [31] 。
词云在数据新闻中较常见,例如,财新网《数字说》栏目在《2015中国社交媒体影响报告》 这篇报道中就运用了词云来展示“微博热门话题”。越热门的词语,在词云中的字号越大,从而通过该词云,受众可以迅速、直观地了解微博中讨论最多的话题和热词。
时间轴常用于时变数据可视化。时变数据是随时间变化、带有时间属性的数据,可依据是否以时间为变量分为时间序列数据和顺序型数据两类,两类数据都能用时间轴来表达 [31] 。在数据新闻中,时间轴常用来表达事件或事物随时间发展的过程,其最常见的构成形式如图1-1所示,包含时间轴线、时间点及其标注说明三个要素。例如,澎湃新闻《美数课》栏目在《一图看懂|174天教练生涯落幕,盘点里皮执教中国队战绩》 这篇报道中就运用了时间轴来描述马塞洛•里皮执教中国国家男子足球队的战绩。具体来说,该时间轴展示了里皮2016—2019年两次执教中国队期间,带队参加过的比赛及获得的成绩。各次比赛都分别用一个小型的圆来表示,按照时间顺序排布在一条以S形延展的时间轴线上。时间轴线分成两段,分别代表里皮两次执教中国队的经历,这些圆用红、绿、灰三种不同的颜色填充,以表示所对应比赛的最终结果(胜、负、平)。对于比较重要的比赛,时间轴上还用文字进行了额外的描述。
图1-1 数据新闻中时间轴的常见构成形式
从广义上讲,时变数据可视化属于时空数据可视化的范畴。陈为等学者将时空数据可视化的内容分为时变数据可视化、地理信息可视化、空间标量场可视化、大规模多变量空间数据场可视化四类。简单来说,时变数据可视化针对只有时间属性的数据,地理信息可视化则只涉及地理位置数据,而空间标量场可视化则主要关注除地理空间位置外的其他物理空间数据,大规模多变量空间数据场可视化最为复杂,其中所包含的“时变空间标量场数据的可视化”就涉及时间和空间数据的双重变化 [31] 。不可否认,在数据新闻实践中也会面临仅涉及时间变化、仅涉及空间位置,以及涉及时间与空间双重变化的三种情境。本节所讨论的内容为仅涉及时间变化的情况,在1.4.5节和1.4.6节中,将讨论后两种情境下的可视化,分别是地理信息可视化和时变空间数据可视化 。
地理信息可视化被用于帮助用户理解、掌握数据中地理空间位置与对应信息的关联 [31] 。在处理不同类型的地理数据时有不同的可视化技术,如点数据的可视化、线数据的可视化、区域数据的可视化等 [31] 。不过,在本书所界定的地理信息可视化的概念中,它所涉及的数据类型更宽泛,既包括地理空间位置数据,也包括其他物理空间数据。在数据新闻中,对地理信息可视化的应用也很常见。例如,新华网《数据新闻》栏目在《在北京停车有多难?》 这篇报道中,借助地理信息可视化来说明北京所划分的三类区域不同的停车收费标准。报道中展示了一张北京地图,当鼠标悬停在地图中比较中间的位置时,显示所划分的三类地区。用鼠标单击“一类地区”“二类地区”“三类地区”字样,就会弹窗显示不同地区具体所指区域及其白天和夜间的停车收费标准。还有的数据新闻报道结合信息图或虚拟现实(Virtual Reality,VR)、增强现实(Augmented Reality,AR)、全景图、三维动画建模等技术进行实景模拟,形成更具现场感的地理信息可视化内容。例如,新华网《数据新闻》栏目在《全视角体验上海迪士尼乐园》 这篇报道中,就将地理信息可视化技术与VR技术结合,对上海迪士尼乐园的详情进行了直观展示。打开该报道的页面,受众可选择观看VR,也可单击【跳过】按钮,这时,页面将呈现上海迪士尼乐园地图全景,并显示几大区域的名称,单击某个区域名称,会弹窗展示此处的实景视频,视频播放完后会跳转到该区域游玩攻略的介绍。该栏目还在《竞技之躯为超越而生——奥运会竞技项目运动员体征报告》 这篇报道中,使用实景模拟的方式,结合动画交互和数据图表,介绍了里约奥运会田径场馆——若昂•阿维兰热奥林匹克体育场的情况。其中,它通过信息图的形式将该场馆的实景做了简化的绘制,并标记出举办不同运动项目的具体位置,从而实现地理信息可视化,达到一目了然的效果。
如前所述,本书所指的“时变空间数据可视化”是对兼具时间标签和空间位置的数据进行可视化,强调时间与空间的双重变化性。在数据新闻中有“人口迁徙图”这样的时变空间数据可视化实践。而且,在数据新闻实践中,很多此类可视化内容都带有交互或动画的特点。例如,在美国半岛电视台获得2015年全球数据新闻奖“综合杰出(评委选择)奖”(General Excellence (Jurors’ Choice))的作品 In Between in California [4] 中就有这样的可视化内容。它在地理信息可视化的基础上,通过动画来反映空间位置随时间的变化,以展示一个低收入工人分别乘坐公共汽车和私家车通勤的不同路线及所需花费的时间。在财新网《数字说》栏目的作品《变胖的地球人》 中,有一个关于1975—2014年世界人口BMI指数变化情况的动画,该动画为每年的世界人口BMI指数分布情况制作了一个地理信息可视化内容,再通过顺序播放每年的可视化内容来反映这40年来的变化情况。新华网《数据新闻》栏目在作品《北京一夜——重塑城市夜间生态》 中则选取了2016年的9天,根据“滴滴出行”的数据和“大众点评”餐饮场所价格数据,针对每一天从当日下午五点到次日凌晨五点的时段,按分钟制作了三维热力地图。热力图是一种用颜色的深浅、明暗等来表现数值大小,进而反映热点所在、分布疏密等情况的图表。该作品制作的三维热力地图上各位置呈现的颜色就反映了该位置的人员出行活跃程度,而海拔高度则反映了消费水平,因此,每张三维热力地图都反映了所对应的这一分钟内京城哪些位置人员的出行活跃度高、消费水平高。将这些三维热力地图顺序播放,就生动而直观地展现了京城业态。
网络可视化的主要内容之一是基于互联网、社交网络中节点和连接的拓扑关系来直观展示网络中蕴含的模式关系 [7] 。网络可视化有节点-链接法和相邻矩阵两类常用布局方法及基于它们的混合布局方法 [31] 。节点-链接法是用节点表示对象,用边表示关系的一种可视化布局方法,尤其适用于节点规模大但边关系简单的网络 [31] 。
在数据新闻实践中,以节点-链接法进行网络可视化布局的情况更为多见。例如,澎湃新闻《美数课》栏目的报道《图解|有不少人试着破解获得诺奖的配方,从年龄到社交习惯》 中就有一个基于节点-链接法进行布局的网络可视化图,用来对比获得诺贝尔奖的科学家与拥有相似条件但未获得诺贝尔奖的科学家的合作网络。图中使用两种不同颜色的节点分别代表获得了诺贝尔奖和未获得诺贝尔奖的科学家,连接两个节点的边代表其所连接的两位科学家之间有合作关系。边相应地分为三种颜色,与节点相对应的两种颜色分别代表获得了诺贝尔奖的科学家之间的合作关系,以及未获得诺贝尔奖的科学家之间的合作关系,而第三种颜色则代表获得了诺贝尔奖的科学家与未获得诺贝尔奖的科学家之间的合作关系。图中节点越大,说明其所代表的科学家合作过的对象越多;边越粗,说明所连接的两位科学家合作关系越紧密。
与网络可视化比较类似的还有层次结构数据可视化,后者也将节点-链接法作为实现方法之一 [31] 。也有学者将层次结构数据看作网络信息的一种特殊情况 [7] 。不过,它意在表现个体间的包含和从属等层次关系 [31] ,如团队中人员的组织结构关系等;而且,层次结构数据可视化通过节点-链接法绘制的关系图多以树状结构出现,节点的布局相对网络可视化来说更规则。除节点-链接法外,其可视化方法还有空间填充法和基于这两种方法的混合方法 [31] 。
高维多元数据是具有多个独立或相关属性的数据,其可视化的目标就是要将这些数据在低维度(多是二维)空间中显示 [31] 。总的来说,二维或三维数据的可视化方法是很多的,但如果超过了三维,如何可视化就要分两种情况了:当超过的维度不多时,通常可以在一些二维或三维可视化内容的基础上增加颜色、大小等属性来表示超过的维度;当维度更多时,则可以采用空间映射(如散点图矩阵、平行坐标法等)、图标法、基于像素的可视化等方法来进行高维多元数据的可视化 [31] 。在数据新闻实践中,也常有需要展示高维多元数据的情况。例如,新华网《数据新闻》栏目的报道《家宴·人间至味是团圆》 中就有很多高维多元数据可视化内容。以其中的一个交互式热力图为例,它由“菜名”和“味道/口感”两组枚举型的数据构成一个二维矩阵,各菜名对应列,各味道/口感对应行,一个菜名和一种味道/口感则对应了矩阵中的一个格子,格子的颜色深浅代表这道菜火候的高低,进而形成热力图。矩阵的右上角按照菜的类型进行分类,点击可以切换并查看海鲜类、禽蛋类等四种不同类型菜的二维矩阵情况。将鼠标指针悬停在一个格子上,还会显示这道菜的若干详细信息。通过上述交互式的切换、悬停操作,可以实现对更多维数据的表达。
以上是对数据新闻中常见可视化技术类型的讨论。如前所述,它们并不代表全部常用技术。而且,一个完整的数据新闻报道通常包含了对多种可视化技术类型的综合运用。采用丰富多样的可视化技术类型,并依托精彩的新闻叙事制作的数据新闻报道一般都更具吸引力。不过,也正因如此,我们很难从可视化技术类型的角度对数据新闻报道进行分类。接下来,将尝试从两个角度对数据新闻进行分类。