在我们正式开始了解交互式可视化数据分析法之前,先来大概了解一下相关的专业术语、基本思想以及概念。
可视化是指通过计算将数据以图形、影像等可视化方式表达出来的一种数据处理方法。这个概念由可视化技术的创建者们于1987年首次提出,具体内容如下 1 :
可视化技术属于一种计算方法,它通过将文字和符号转换成几何图形来帮助科研人员更直观地进行模拟和计算。这项技术能将看不见、摸不着的数据变成简单易懂的可视化图形,极大地推进了科学研究的发展,同时也对人类的认知手段产生了深远的影响。(麦考密克等,1987)
这段话描述了多个数据载体和步骤之间的转换。首先,深入地了解所需的数据。其次,使用计算机将数据转换成可视化图形。最后,由人来观察可视化图形并获取信息。
可视化图形是大数据可视化分析的基础,但是,单靠图形是无法满足信息时代的海量数据分析需求的,因此我们还需要建立人机之间的交互机制并找出相应的计算分析方法。
早在1981年,雅克·贝尔廷(Jacques Bertin)就认识到了需要一种可控制的交互式可视化方案 2 :
图形并非一次性“画”出来的,而是经过“构建”而成的,意为通过不断地调整来最终表达出数据间的各种关系及架构。最好的图形应该是由操作者亲自动手“构建”出来的。(贝尔廷,1981)
交互机制的加入使可视化数据图形能够为人所用,我们可以利用这个机制真正参与到可视化数据分析之中,自由地选择所需的数据项。也可以实现醒目地突出显示不同的数据特征,变换观察角度或者根据情况调整可视化图表等功能。
虽然交互机制将人类的感知能力加入其中,但我们还需要借助计算机的强大计算能力来完善整个可视化数据分析流程。通常来说,海量而繁杂的数据无法全部实现可视化,那么此时就可以利用计算机使其根据预设特征及特殊标签来从原始数据中提取信息。
基姆(Keim)等人在《可视化分析浅谈》( Visual Analytics Mantra )一书中总结了可视化、交互以及计算三个概念之间重要的互补作用 3 :
初步分析
找重点
缩放,筛选,深入分析
找细节
(基姆等,2006)
根据这一说法,可视化数据分析的流程从自动分析开始,先将提取到的数据转换成图形,再通过人机交互调整该可视化图形,然后根据关键特征筛选出特定数据,最后由计算机进行分析计算。全程建立索引,以便于随时回看。
作为一种信息处理手段,人和计算机的紧密配合成为交互式可视化数据分析法的关键优势。计算机可以快速准确地处理海量数据,而人类则拥有强大的创造性思维、灵活的决策能力以及图形观察能力。
为了准确地获取想要的信息,我们必须善加利用数据技术和计算机的计算功能并将这二者的优势整合。诸如可视化设计、计算机图形学、人机交互、用户界面、心理学、数据科学和系统算法等都属于这一范畴。各方协调一致才能够发挥出可视化数据分析的强大功能。
为了设计出可行的数据分析工具,我们首先需要考虑它的使用环境。而为了了解使用环境,可以从五种情况(五种变量)入手:目标、原因、用户、空间,以及时间。
分析什么样的数据?(目标) 数据的类型多种多样,比如游戏玩家数据、人口普查数据、活动轨迹数据等,而每一种数据都在规模、维度和多相性方面有其独一无二的特征,这也就意味着不同种类的数据间存在着差异。
为什么分析数据?(原因) 充分的数据支持可以使人们事半功倍。比如在基因调控网络中寻找控制因子,整套数据分析流程涉及诸如确定数据值和设置相关模型等具体分析项目。
谁需要分析数据?(用户) 医生在日常临床治疗中研究病情时需要不同的分析方案,战略投资者需要在新闻中寻找新的市场商机。当然,个人能力和偏好也在此处起到了一定影响。
在哪儿分析数据?(空间) 除了配置有计算机主机、显示器、鼠标和键盘的常规办公室,还可以在拥有大型屏幕墙和人机交互技术的场所来进行交互式可视化数据分析。
什么时候分析数据?(时间) 与其他方案一样,可视化数据分析法也要求高效率且步骤准确。数据分析要遵循特定的处理流程,而且每一个步骤都要符合相关要求。
上述五种变量表明,影响数据分析的因素有许多方面,包括数据种类、分析任务、用户群体、办公环境、个人习惯,及各种客观条件。对于数据分析方案的实用性来说,目标及原因在其中扮演着重要的角色。当然,任何可视化转换以及人机交互也都离不开人的操作,人的感知、认知、体力、专业知识、背景和偏好都会对数据分析结果产生影响。而当数据分析运行于多屏幕环境、多终端协作或者受限于特定的工作环境时,还要考虑到时间和空间的影响因素。
根据这五种变量,我们很明显能够发现,成功运用交互式可视化数据分析的前提就是必须针对特定的目标和实际应用环境进行相应的调整。鉴于现在人类已经进入数据大爆炸的信息时代,我们急需一些更先进的概念和科学技术来帮助我们应对如此海量的数据。接下来让我们看一些简单的例子。