“数据”是制作数据新闻的前提和关键,是一篇数据新闻报道的灵魂所在。“数据”与“可视化”是息息相关的,讨论“可视化实践”不能不讨论“数据”及对数据的各类操作,它是“可视化实践”的必要前提。
首先,正所谓“巧妇难为无米之炊”,更何况在大数据时代,无论是用于哪个行业的“数据”,其内涵和外延都发生了深刻的变化。“数据”已经被广义地理解为“信息”,既包含结构化的内容,又包含非结构化的内容,还包含半结构化的内容。结构化数据有一定的逻辑结构和物理结构,一般在数据库中存储;非结构化数据一般不存储在数据库中,而以文本的形式存放;半结构化数据,如互联网上的一些数据,它们内嵌于HTML或XML中以文本形式存储,有一定的逻辑结构和物理结构 [44] 。由于新闻媒体一般都会涉及比较广泛的报道主题,因此在制作数据新闻时会遇到上述各种类型的数据。在第1章中谈到,数据可视化有不同分支、不同可视化方法和技术,它们适合处理不同的数据类型。所以,只有对“数据”的相关概念及如何搜集、处理、分析数据有所了解以后,新闻从业者才能在可视化设计时选择合适的方法并准备好所需的数据。同时,随着大数据时代的到来,对非结构化数据的分析变得越来越有价值。例如,美国某著名家电厂商曾通过分析大量客户的邮件(这些都是非结构化数据),发现了一个严重的产品问题 [45] ,从而减少了不必要的经济损失。又如,美国某著名银行通过对其十几万条客户网络聊天信息(同样也是非结构化数据)进行分析,评估了开发一项新功能的必要性,进而更准确地定位了客户需求,防止了不必要的成本浪费 [45] 。新闻工作者也应意识到非结构化数据的重要性,通过分析此类数据并进行可视化,带给受众更多有价值的新闻报道。
其次,众所周知,在大数据时代,信息爆炸性地产生,数据表现出海量、冗余、质量参差不齐等特点。只有从茫茫数海中搜集到符合新闻选题的数据,并对它们进行处理、挖掘,从中抽丝剥茧,才能得到真正有价值的内容,这都要求数据新闻从业者必须做好充分的数据准备工作。而只有对真正富含新闻价值的内容使用可视化加以诠释,才是可视化的意义所在,也是数据新闻的意义所在。
综上所述,新闻中的“数据”是大数据时代产生的海量信息(包括结构化、非结构化和半结构化数据)。数据准备与“可视化”息息相关,是“可视化实践”的必要前提。数据新闻的目标就是通过数据准备(搜集、处理与分析)、可视化和新闻叙事,挖掘和呈现真正有新闻价值的内容。不过,既然本书的视角放在“数据新闻的可视化实践”上,因此在讨论可视化前的数据准备时,主要采用大部分读者都比较熟悉的软件来操作,或者介绍通过计算机编程实现的方法。强调后者是因为随着大数据进程的推进,对通过计算机编程来进行数据搜集、处理的需求越来越常见。对于新闻从业者来说,对其有一个基本了解很必要。而且,我们讨论的这些软件和编程语言大多也可以用于可视化,读者对它们加以了解,可在可视化环节选用工具时又多了一些选择。再者,在第4章介绍D3.js等基于JavaScript框架的可视化实践时,也会涉及一些编程。因此本节讨论一些计算机编程实现的方法及相关基础(如JavaScript的基本语法),希望读者能尽可能熟悉这种编程的语境和思路,为理解后续内容做好准备。