本章的核心内容是将数据可视化为图形。理论上讲,有很多方式可以将数据转换为图形。有些图形可以非常清晰明了地将数据表现出来,甚至可以很美观,而有些就显得很蹩脚,根本看不出来任何东西。
这说明图形的绘制非常重要,不同的绘制方法会产生不同的可视化效果以及不同的数据特征 1 :
表征效应:不同的对象有不同的表现。(汉拉汉,2009)
图3.1中所示就是表征效应。这三张图中显示的都是相同的数据:经诊断患有流感类疾病人数的时间序列。然而,这三张图使用的是不同的绘制技术和不同的参数。图3.1(a)中用的是一个柱状图。我们从中可以清楚地看出确诊人数时段的一些峰值。随着时间的推移,它似乎没有明显的变化趋势。
图3.1 不同的图形显示不同的内容
但这会是周期性表现吗?为了回答这个问题,我们可以使用一种不同的图形:螺旋图。图3.1(b)中显示的是以32天为一个周期的螺旋图。从这张图中,我们看不出任何周期性循环,那么让我们来试一试不同的参数。在图3.1(c)中,循环周期改为了28天,也就是完整的四个星期。从工作日开始算起,我们能够从中看出某些端倪:周一开始,确诊人数暴增,而到了周末,几乎没有确诊的患者。这种情况根本没法从柱状图中看出来,可另一方面,确诊人数峰值也没法在螺旋图中看出来。
通过这个简单的小例子,我们可以发现图形的设计是多么重要。不同的设计面向不同的信息(例子中的确诊人数峰值要依靠柱状图来表示,而确诊的日期则要依靠螺旋图来表示)。所以,关键在于要选择合适的图形来显示想要表现的信息。
在本章中,我们将重点介绍符合前文所述的兼具表达性、有效性和高效性标准的图形设计方案。为此,我们要从最基本的图形设计方案学起,并且能够将其编译为可视化的数据。在设计图形时一定要注意两个关键点:将数据编译为可视化图形的方式以及如何将图形清晰明了地呈现给用户。在3.1节中,我们会介绍图形编译和显示的基本概念。
合适的图形设计可以被看作是一种可视化技术。可视化技术通常会对合适的数据做出一些假设,然后适当调整参数来优化图形的可视化效果。
不同的数据类型需要不同的可视化技术,所以本章将从数据的角度进行说明。首先,我们在第3.2节中会讨论多变量数据可视化的基本技术。其次,我们在第3.3节和第3.4节中会延伸到关于时间数据和地理空间数据的技术,它们分别需要以时间和空间参照系为标准。最后,在第3.5节中,我们会研究图形数据和数据元素之间的关系,这就需要用到特殊的可视化技术。
总而言之,我们将一步一步地学习如何从基本的图形设计到多维度数据属性A的可视化,再到时间数据T和地理空间数据S的可视化,乃至它们之间的关系R,同时还会研究一些各维度数据的不同组合等方面的问题。