购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第1章
大数据可视化概述

“让每个人都成为数据分析师”是大数据时代的要求,数据可视化技术的出现恰恰从侧面缓解了专业数据分析人才的缺乏。Tableau、Microsoft、IBM等IT厂商纷纷加入数据可视化的阵营,在降低数据分析门槛的同时,为分析结果提供了更炫的展现效果。

1.1 大数据时代的技术挑战

大数据的出现正在引发全球范围内技术与商业变革的深刻变化。在技术领域,以往更多依靠模型的方法,现在可以借用规模庞大的数据,用基于统计的方法,使语音识别、机器翻译等技术在大数据时代取得了突破性的进展。

既有技术架构和路线已经无法高效处理海量的数据。对于相关企业组织来说,如果投入巨大而采集的信息无法及时处理与反馈,就会得不偿失。可以说,大数据时代对人类的数据驾驭能力提出了新挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间。

大数据时代主要有以下4个技术挑战:

第一个挑战是数据量大。

大数据的起始计量单位是PB(1000TB)、EB(100万TB)或ZB(10亿TB)。目前,企业面临数据量的大规模增长,预测到2020年,全球数据量将扩大50倍。如今,大数据的规模尚在不断变化,单一数据集的规模范围从几十TB到数PB不等。导致我们无法通过目前主流的软件工具收集、管理、处理数据并整理成为帮助企业达到经营决策目的的资讯。

第二个挑战是数据类型繁多。

包括网络日志、音频、视频、图片、地理位置信息等,多种类型的数据对数据处理能力提出了更高要求。数据多样性的增加主要由新型多结构数据和多种数据类型(包括网络日志、社交媒体、互联网搜索、手机通话记录及传感器数据等)造成。其中,越来越多的传感器被安装在火车、汽车和飞机上,每个传感器都增加了数据的多样性。

第三个挑战是数据价值密度低。

大数据结构非常复杂,有结构化的,也有非结构化的,增长速度飞快,单条数据的价值密度极低。此外,随着物联网的广泛应用,信息感知无处不在。信息海量,但价值密度较低,如何通过强大的机器算法迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。

第四个挑战是高速性。

描述的是数据被创建和移动的速度。在高速网络时代,通过实现软件性能优化的高速计算机处理器和服务器创建实时数据流已成为流行趋势。企业不仅需要了解如何快速创建数据,还必须知道如何将数据快速处理、分析并返回给用户,以满足用户的实时需求。

1.2 数据可视化的技术难点

大数据具有多层结构,意味着会呈现多变的形式和类型。相较于传统的业务数据,大数据存在不规则和模糊不清的特性,造成很难甚至无法使用传统应用软件进行分析。传统业务数据随着时间的演变已经拥有标准的格式,能够被标准商务智能软件识别。目前,企业面临的挑战是处理并从各种形式呈现的复杂数据中挖掘价值。

传统数据可视化工具仅将数据加以组合,通过不同展现方式提供给用户,用于发现数据之间的关联信息。近年来,随着云和大数据时代的来临,数据可视化产品已经不再满足于使用传统数据可视化工具对数据仓库中的数据抽取、归纳并简单地展现。新型数据可视化产品必须满足互联网爆发的大数据需求,必须快速收集、筛选、分析、归纳、展现决策者所需要的信息,并根据新增数据进行实时更新,这是大数据可视化的技术难点。

大数据技术的有效可视化不应该只是为管理层绘制漂亮的图片。专家表示,企业可通过考虑布局、迭代设计、吸引用户和了解业务需求来改善结果。开展数据可视化项目的企业提供了以下几个注意事项:

(1)了解业务。分析之前与业务人员进行深入沟通,了解他们希望获取什么信息。在构思不同的仪表板时,应该始终考虑最终用户,如管理层、分析师、IT人员和业务人员希望从不同类型的可视化分析中获取什么,只有这样,大数据的可视化才有实际价值。

(2)注重个性化。应该确保仪表板向最终用户显示个性化信息,以及为最终用户提供离线访问,这将让可视化走得更长远。注意仪表板就像一本书,它需要考虑用户的实际需求,而不仅仅是强制列出所有可访问的数据。

(3)尽可能简化。由于大数据可视化工具的功能非常丰富,因此通常会导致分析师构建过于复杂的可视化图表,导致难以收集可行的见解,优秀的分析师应尽可能简化可视化,确保最终产品不是徒有炫酷外表而不能满足实际需求。

(4)从用户角度。应该使用颜色、形状、大小和布局来显示可视化的设计和使用。用颜色来突出希望用户关注的方面,而大小可以有效地说明数量,但过多使用可能会导致混乱,应该有选择地使用这些元素。

(5)选择合适的方法。不同的情况需要采用不同的可视化方法。例如,许多数据可视化专家不建议使用饼图,这是因为人眼和头脑可以更容易地测量长度或位置之间的差异,而很难识别角度差异。

1.3 可视化工具的必备特性

数据可视化的历史可以追溯到20世纪50年代计算机图形学的早期,人们利用计算机创建了首批图形图表。到了1987年,一篇题目为“Visualization in Scientific Computing”(科学计算中的可视化,即科学可视化)的报告成为数据可视化领域发展的里程碑,它强调了基于计算机可视化技术新方法的必要性。

随着人类采集的数据种类和数量的增长、计算机运算能力的提升,越来越多高级计算机图形学技术与方法应用于处理和可视化这些规模庞大的数据集。20世纪90年代初期,“信息可视化”成为新的研究领域,旨在为许多应用领域对于抽象异质性数据集的分析工作提供支持。

当前,数据可视化是一个既包含科学可视化又包含信息可视化的新概念。数据可视化是可视化技术在非空间数据上的新应用,使得人们不再局限于通过关系数据表观察和分析数据信息,还能以更直观的方式看到数据与数据之间的结构关系。

数据可视化是关于数据视觉表现形式的研究。这种数据视觉表现形式被定义为一种以某种概要形式抽取出来的信息,包括相应信息单位的各种属性和变量。

在大数据时代,数据可视化工具必须具备以下4个特性:

实时性: 数据可视化工具必须适应大数据时代数据量爆炸式增长的需求,必须快速收集、分析数据,并对数据信息进行实时更新。

简单操作: 数据可视化工具满足快速开发、易于操作的特性,能满足互联网时代信息多变的特点。

更丰富的展现: 数据可视化工具需要具有更丰富的展现方式,能充分满足数据展现的多维度要求。

多种数据集成支持方式: 数据的来源不局限于数据库,数据可视化工具将支持团队协作数据、数据仓库、文本等多种方式,并能够通过互联网进行展现。

数据可视化的思想是将数据库中每一个数据项作为单个图元元素,通过抽取的数据构成数据图像,同时将数据的各个属性值加以组合,并以多维数据的形式通过图表、三维等方式展现数据之间的关联信息,使用户能从不同维度和不同组合对数据库中的数据进行观察,从而对数据进行更深入的分析和挖掘。 NZ3hZr2P0pI4ByuOSUrVhr4HjjgtNugKsY0j5Nzwgu9+PJvbcpcT6fGTkffDCQqt

点击中间区域
呼出菜单
上一章
目录
下一章
×