大数据正悄然改变我们的生活,开创一个新时代。随着计算机技术与互联网技术的快速发展,使用互联网思维解决问题的方式让人们的生活变得越来越便利,由此也积累了种类繁多、体量巨大的数据。这些数据存在于我们生活的每个角落,人们希望从这些数据中挖掘出巨大的价值。数据可视化技术是大数据分析挖掘的最直观表达,是探索和理解大数据最有效的途径之一。将数据转化为视觉图像,能帮助我们更加容易发现和理解其中隐藏的模式或规律。
本书是数据可视化技术的入门教材,采用理论与实践相结合的方式,由浅入深地介绍了数据可视化技术的基本概念和基础知识,并结合实践案例,带着读者运用所学知识解决现实中的问题。
全书分为3个部分,共9章。
第一部分是基础应用,包括第1章和第2章。第1章阐述数据可视化的定义、作用和发展历史,并介绍数据可视化面临的挑战和未来的发展方向;第2章详细介绍如何使用Excel进行数据可视化。
第二部分是数据可视化工具Tableau的基本使用方法,包括第3章~第5章。这3章详细介绍Tableau工具的使用方法以及如何利用Tableau进行数据可视化设计,并利用综合案例帮助读者加深对Tableau应用的理解。
第三部分是实际应用,包括第6章~第9章,这4章详细介绍如何利用代码实现数据可视化(前端数据可视化、使用JavaScript实现数据可视化、大屏数据可视化、Python编程语言可视化),并且通过对实际案例的介绍,提升读者可视化编程的水平。
由于编者水平有限,书中难免存在一些疏漏和不足之处,恳请广大读者批评指正。
特别提示:本书采用黑白印刷,彩图请参考本书提供的相关资料。
编者
2024年1月
导读案例 南丁格尔玫瑰图
南丁格尔玫瑰图又名鸡冠花图或极坐标区域图,是一种圆形的直方图,由弗罗伦斯·南丁格尔发明。
南丁格尔玫瑰图将柱形图转化为更美观的饼图形式,是极坐标化的柱图。不同于饼图使用角度表示数值或占比,南丁格尔玫瑰图使用扇形的半径表示数据的大小,各扇形的角度则保持一致。南丁格尔玫瑰图如图1-1所示。
图1-1 南丁格尔玫瑰图
注:图中数字的单位为人。
南丁格尔玫瑰图的发明者——弗罗伦斯·南丁格尔是一名女护士。19世纪50年代,英国、法国、土耳其和俄罗斯爆发了克里米亚战争。南丁格尔主动申请担任战地护士。当时的医院卫生条件极差,伤兵死亡率高达42%,直到1855年卫生委员会的相关负责人来到医院改善整体的卫生环境后,伤兵的死亡率才降至2.5%。南丁格尔注意到这件事,认为政府应该改善战地医院的卫生环境,这样才能拯救更多的生命。南丁格尔女士肖像如图1-2所示。
图1-2 南丁格尔女士肖像
出于人们对资料统计不重视的忧虑,她设计出一种色彩缤纷的图表,让数据能够更让人印象深刻。图1-3是著名的南丁格尔玫瑰图,图中蓝色(浅灰色)区域表示死于感染的士兵数量,红色(白色)区域表示死于战场重伤的士兵数量,深色区域表示死于其他原因的士兵数量。图1-3中有如下两个非常明显的特征。
① 两幅图中蓝色(浅灰色)区域的面积明显大于其他颜色区域的面积。这意味着大部分的士兵伤亡不是因为战争造成的,而是在恶劣的卫生环境下感染的。
② 图1-3(a)中的扇形面积远小于图1-3(b)中的扇形面积。这说明卫生委员到达后(1855年3月),死亡人数明显下降,证明卫生环境的改善带来的效果。
图1-3 南丁格尔玫瑰图示例
注:本书采用黑白印刷,彩图请参考本书提供的相关资料。
图1-3的英文版图片出现在南丁格尔游说英国政府加强公众医疗卫生建设和相关投入的文件里。这让政府官员了解到改善医院的卫生环境可以显著地降低英军的死亡率,因此她的医疗改良提案得以通过。该提案挽救了众多生命。
南丁格尔玫瑰图适合比较大小相近的数值,因为图表会将数据的比例夸大,又因圆形具有周期的特性,因此也适合用来表示周期内的时间概念。南丁格尔玫瑰图的优势与缺点如下。
优势:较为直观地对比各系列的数值差异。
缺点:因为半径和面积是平方关系,因而会将数据的比例夸大,不适用于差异过大的数据。
知识准备 什么是数据可视化