购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.2 范例

至此,我们已经介绍了可视化数据分析法的基本概念。接下来会展示一些示例,这些示例一方面能够说明可视化数据分析法的强大功能,另一方面这些事例也能帮助我们了解该方法的设计思路以及其中涉及的问题。

这些例子从最基本的可视化图形到复杂的分析场景,循序渐进地逐一向我们展示。在此过程中,我们会通过逐步加入可视化图形、人机交互技术和自动计算、多终端协同、综合用户需求以及复杂环境来提高难度。

1.2.1 入门范例

我们所要分析的数据实质上就是图形。图形是一种表现实体相互间关系的通用模型,可以广泛用于各种领域。生物学家利用基因调控网络模拟自然生物现象,气象学家利用气象网络模拟地球气候,犯罪调查人员通过勾画犯罪嫌疑人之间的关系来破获复杂案件。在我们的日常生活中,计算机互联网和社交圈也属于这一类情况。

图形的构成通常包含节点、边和特征。节点代表实体,边代表实体之间的关系,节点和边的特征都具备存储附加信息的功能。

在我们开始举例子之前,先来看一看需要转换为可视化图形的原始数据。示例1.1是一份JSON格式的数据。其中第2至第11行共有3个节点,每一个节点都关联到一个ID和一个标签。第14至第22行共有两条边,负责连接源节点(src)和目标节点(dst)。两个节点(源节点和目标节点)之间的连接强度(weight)就是该数据的特征。

例1.1 带有节点、边和特征的数据

我们从第12至第23行的内容可以看出来,这一组包含三个节点和两条边的数据只是最基础的一个示例,而我们即将要面对的数据实际上包含77个节点和254条边,简直就是维克多·雨果在《悲惨世界》中刻画的众多人物形象的翻版。

示例1.1只给出了数据结构,这样很难从中获取隐藏在数据中的有用信息。因此,我们(用户)接下来要分析可视化图形,以便更深入地理解各项信息。首先,我们先把注意力放在图形架构上(原因)。

绘制可视化图形的最基本方式就是在各节点之间建立连接。图1.1(a)所示是一组简单的可视化图形结构。圆点代表节点,各节点之间的连接线代表边。圆点可以自由放置,本示例使用的是力导向算法。正如我们所见,这个图形仅由圆点和连接线组成,结构十分清晰。

图1.1 带有图形结构和特征的节点连接图

接下来我们要进一步了解数据,找一找哪些数据与其他数据的联系最多,哪些是主要数据。在图形结构中,我们可以通过查看节点之间的边的数量来提取信息。但问题是,诸多节点和边互相交叉,比较纷乱,这样很难看出关键信息。所以,怎么才能让我们想要的信息更加清晰地表现出来呢?

某个节点的节点度是指和该节点连接的边的数量,这个特征也存在于可视化图形结构中。因此,我们可以为每个圆点赋予不同的颜色来表示节点度。在图1.1(b)中,深绿色节点的节点度较高,而浅绿色节点的节点度较低。在这个优化后的节点连接图中,我们可以发现图中央的深绿色圆点的节点度最高,是图中的主要节点。

但是这样还远远不够。现在的问题是低节点度和高节点度的圆点尺寸相同,无法令人清晰地分辨出来。我们打算再进一步优化,增强重要节点的视觉效果,同时弱化不太相关的次要节点。所以在填充圆点颜色的基础上,我们根据节点度来调整圆点尺寸的大小。在图1.1(c)中,可以通过圆点的颜色深浅和尺寸大小更清晰地看出各圆点的节点度。

到了这一步,图形中的各节点信息已经越来越清晰明了。然而,我们是不是把边给忘了?为了使数据图形更加完善,我们还要在边的方面下一番功夫,可以试一试改变各圆点间连接线的粗细。在图1.1(d)中,粗线代表边的强度较高,细线代表边的强度较低。通过这一系列额外的辅助图形元素,我们就可以很容易地看出各节点之间的关系等关键信息。

总的看来,我们现在已经能够将图形结构和两个辅助特征转换成了可视化图形,该结构以圆点和连接线的形式清晰地展现出来。其中节点的强度通过圆点颜色深浅和尺寸大小来表示,边的强度通过连接线的粗细来表示。如此一来,我们就可以从图形中找到数据的关键特征。虽然通过读取原始数据也可以最终获得同样的结果,但所耗费的时间和人力成本会远远高于直接观察可视化图形。

1.2.2 进阶数据分析

上一个例子表明,可视化图形在数据分析领域具有极强的发展潜力。在实际应用中,这种简单的可视化图形在面对复杂数据时就会束手无策。上一个示例的图形中包含77个节点和254条边。而实际中,更常见的是拥有数千个节点和边以及数十种特征的复杂图形。比如气象网络就是这一类大型复杂图形的一个典型例子。气象学家通过大规模模拟气候现象来理解和预测地球气候变化。

随着数据量和复杂程度的增加,我们也得认真起来。在转化大量数据时,最终得到的可视化图形有可能会显得特别杂乱,这时就要引入充分的应对机制。另外,现有的技术几乎不可能将数据的方方面面都照顾到,所以就有必要拓展可视化图形,将其分化为多个图形,每一个图形都只负责处理某些特定的数据项。我们用如下两个例子来说明这一方案。

图1.2(a)所示是一组气象网络的可视化图形结构。这个结构中包含6816个节点和116470条边,如此之多的内容使图形看起来简直无比密集,目之所及全部都是圆点和连接线。怎么办?在这种情况下,标准的处理方案是把注意力放在相关联的数据子集上。我们首先确定所需的数据项,然后再利用人机交互系统筛选并创建可动态变化的数据子集。

图1.2 气候网络图形经过动态筛选,排除非必要数据,只保留需要的数据

在气象网络中,我们需要筛选出能够影响到气候变化和气流的关键节点。根据图论的知识,这一类节点的典型特征通常具有高度的中心性。于是我们首先可以使用自动算法来计算出每个节点的中心性。然后再由用户确定一个合适的阈值,以筛掉低中心性的节点和与其连接的边。

图1.2(b)所示是筛掉中心性低于65000的节点以后的气象网络。该图形中只包含用户所需的数据项,因此现在只剩下938个节点和5324条边。经此处理以后,图形整体变得更加直观,隐藏在数据中的结构也都清晰了起来。

图1.3 气象网络的多图形界面

通过上述筛选过程,我们可以解决大量数据引起的算力不足的问题。而另一个问题是数据的多元性和复杂性,这就涉及与数据有关的语义信息。我们在上文中曾提到,在可视化图形中,图形的结构和特征起着极为重要的作用。同时,时间和空间因素也都扮演着重要角色。气象网络通常基于空间参照系运行,所以它会随着时间的推移而不断发生变化。为了更全面地了解数据,我们有必要去了解其各个组成部分以及它们之间的相互作用。这种情况就需要利用多图形系统来解决,其中每一个图形都只负责处理某些特定数据。图1.3所示就是多图形系统,这个系统中包含有多个图形,它们共同将气象网络可视化。先简单来介绍一下这个界面,(左上角)密度图、(上排中间)节点连接图、(右上角)全球视图、(节点连接图下方)多元特征图、(底部)节点筛选器滑块以及一些辅助功能。以上这些图形相互之间都存在关联,也就是说,调整任意图形,都会对其他图形产生影响。图形之间的相互关联有助于整合不同的数据,由此我们可以更加全面地了解信息。

1.2.3 先进技术

在上一个例子中,我们通过综合使用图论知识、交互筛选数据以及多图形系统等手段对数据进行了全面监测。但是,交互式可视化数据分析法到底能做到什么样的程度呢?这取决于实际情况。首先就是要有面积足够大的显示设备;其次,人机交互系统必须足够友好,足够智能,能够帮助人类分担任务职能;最后,计算机的计算速度要足够快,能在尽可能短的时间内反馈计算结果。

随着科技的发展,现在已经有一些先进技术可以用来突破这些限制。为了便于说明,我们在这里举两个例子。一个是用于指导用户如何进行数据分析,另一个则是用于拓展屏幕空间以便容纳更多图形。

现在已经有人提出,高效、智能的人机交互对于可视化数据分析极为重要。然而,人机交互系统本身的要求也颇高。用户在操作之前,首先要解决这样几个问题:这个系统到底该怎么用?操作步骤是什么?该按哪个按钮?该选择什么选项?这时,我们就需要界面友好、易于使用的先进图形分析系统的帮助。

再问一个类似的常见问题:我们到底要看什么样的数据?想要更仔细地研究数据,那么最经典的方式就是把它们放大,如图1.4(a)。请注意,我们已经创建了一个新的图形,这个图形用于统计浏览器搜索引擎中关键词组合的情况,其中包含2619个节点和29517条边。将它放大以后就能看到数据的具体情况,但同时,图形的其他部分就看不到了。因此,该数据分析属于一个线性的过程,我们只有在分析完一部分数据以后,才能够分析接下来的数据。在此过程中,用户需要明确自己的目标,做好相应的分析计划。如果用户无法明确目标数据,那么系统就会介入并产生引导。

图1.4 数据导航中系统介入提供引导

系统介入并产生引导指的是系统算法会扫描图形,并以当前节点为中心,分析图形可见范围内的各节点,且根据用户事先指定的兴趣度搜索附近关联度较高的节点和边。在确定关联度最高的对象以后,改变其视觉特征(例如加粗、高亮等),以此来提示用户。图1.4(b)中显示了几个带有红色圆圈的节点,这几个节点就是系统算出与用户兴趣关联度最高的几个,可以进行深入研究。此外,图中边缘的箭头代表所指方向存在关联度较高的节点。用户可以自由选择跟随系统引导或者按照自己的既定计划工作。当然,系统引导比较微妙,如果过于生硬,那么用户体验感可能不会太好,所以系统引导除了做到正确运算以外,还要赋予用户足够的自由度,这样才能充分发挥它的价值。

可视化数据分析的第二个例子是关于如何解决屏幕空间限制的问题。为了解决这个问题,最简单的方式是只需要买一台大尺寸的显示器就可以。在某些非传统办公条件中,我们可以利用多台显示器组成多屏幕显示环境,这样就能大幅度扩展图形的可视面积(空间)。图1.5中所示的环境中,既有固定式的大屏幕,也有便携式的笔记本电脑,其中,每个显示器都可以显示多个图形,它们都可以根据实际情况加以布置和利用。

图1.5 在多屏幕显示环境下进行可视化数据分析 4

一方面,多屏幕环境可容纳更多的高分辨率图形,甚至可以支持多个用户协同分析数据。而另一方面,新的问题又出现了:我们该如何在屏幕上科学合理地布局图形?如果有其他用户挡住了屏幕怎么办?如何在大尺寸屏幕或多屏幕环境下使用交互系统?所以解决这些问题以及为用户在此类高效环境下提供引导也成了可视化数据分析研究课题的一部分。

这一部分中,我们从基础图形架构、增强图形辨识度和相关领域的先进技术等方面为大家介绍了一系列可视化图形的示例。从某种意义上讲,这些示例可以看作是对本书内容的导入。在下一部分中,我们将进行更深入的学习。 orLwprboTbhN79FGAGWvj6jNm7Sy47fA7j59D4bkr8Ch/8K3tYEo0YRRFL6BaS4A

点击中间区域
呼出菜单
上一章
目录
下一章
×