购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.3 绘制统计图表

图表是最简洁有效的信息传达方式,无论是在探索数据的过程中,还是为他人讲解结论时,图表都十分重要。本节涉及连续型数据、离散型数据和高维数据等多种类型,介绍了常见的统计图表,以及如何用它们正确地传达信息。

2.3.1 多种基本图形

图表的类型有许多种,最常见的3种统计图表是散点图、条形图和折线图,这3种图形也是最基本的图形,适用于许多场景。

提示

散点图通常绘制在一张二维平面上,既可以表现一维变量,又可以表现二维变量。但是,散点图仅适用于连续的数值型变量。

图2.3所示是一张关于汽车行驶速度与行驶距离的散点图。它同样绘制在二维平面上,反映了两个连续的数值型变量的关系。

图2.3 汽车行驶速度与距离的散点图

由图2.3可清楚地看出,行驶距离随着行驶速度的增加而增加,这两者有一个明显的正相关关系。类似地,也可将横轴替换为无意义的数据序号,则散点图只涉及一个变量。

提示

条形图适用于两种数据,一种是具有时间关系的数据,另一种是分组数据,无论哪种数据,其纵轴总是绘制连续型变量。

图2.4所示是一张超市销售数据的条形图,记录了2006-2012年间的销售额数据。

图2.4 超市销售数据的条形图

分组数据也能用条形图来表示,即一个柱形就代表一个组别。在条形图的基础上,还延伸出复合条形图等图形。

提示

折线图也是一种常用的图形,用于绘制具有时间关系的数据,且适用于时间跨度较长、数据较多的情景。

图2.5所示反映了1949-1961年间飞机乘客数量的变化。

图2.5 飞机乘客数量与年份的折线图

随着时间的推移,越来越多的人乘坐飞机,且飞机乘客的数量随着季节的变化而具有明显的规律性,在六七月份有更多的人选择乘坐飞机。

将折线图中连接点与点的线条去除后,即可得到一张散点图,且这种散点图的信息是十分明确的。但将散点图中的点简单缀连起来,一般不能得到一张有意义的折线图,只有当散点图的横轴是时间数据时,折连图中的点才是有意义的。

直方图与简单条形图十分相似,它们都是使用一些长条来表现数据。但实际上,这是两类区别非常大的图形。

图2.6所示是一张花萼宽度的频数直方图。

图2.6 花萼宽度的频数直方图

提示

将图2.6与图2.4作比较,即可发现直方图与条形图的一个明显区别:直方图中的条形紧紧挨在一起,而条形图中的条形之间则留有空隙。

简单条形图用于反映一个分类变量和一个数值型变量,而直方图则用于反映一个数值型变量。若纵轴表示频数,横轴表示组距,且以0.2为组距,将2到4.4分为12个小组,那么“花萼宽度”中的150个数据便落在这些小组之中。记录下每个小组的频数,并以频数作为每个条形的高度,即可绘出图2.6。

直方图的作用不是反映不同条形之间的差异,而是反映变量的分布情况。观察图2.6,可以发现花萼宽度的数据大部分分布在2.5~3.5,越靠近3.0的条形就越高,数据越密集;越远离3.0的条形就越低,数据越稀疏。

最后一类常用图形是饼图,但它的适用性远不如其他图形广泛。饼图仅适用于表现百分比形式的分类变量,且变量的类别不能过多。当想要强调其中某一分类占总体比重时,饼图将在各方面都比条形图更好。

图2.7所示是一张反映世界人口中收入较低者占比的饼图。

图2.7 世界人口中收入较低者占比的饼图

当只有两个分类时,两个分类之间的差异就会变得十分明显,而且图2.7中标识出来的每个部分的百分比也强调了这种差异。此时饼图要优于条形图,可将每个部分占整体的比重强调出来。

2.3.2 绘制高维图形

当变量比较少时,2.3.1小节中提到的基础图形可以很好地表现数据的特性。当变量个数比较多时,就需要一些其他的图形来表现数据。三维图是专门用于表现三维变量的图形。

图2.8所示是一张简单的三维散点图。三维散点图与二维散点图类似,只不过它的坐标轴由两个增加至3个,且这3个坐标轴所对应的变量都是连续型变量。

图2.8 简单的三维散点图

在这3个变量所组成的三维空间中呈带状分散着150个散点。这些散点中的1/3落在左下方的位置,另外的2/3落在右上方的位置。为了增强立体感,三维散点图还在图形的下方增加了表格,用于帮助确定每个散点对应的位置。

提示

除散点图外,折线图也可绘制成三维形式,三维的折线图也称为曲面图。它所示的图形好似一张被折过的纸,每一个折点都代表一个值。

当变量个数超过5个时,就需要用到雷达图、星图或脸谱图。

雷达图适用于变量个数在5~8个,样本点也不超过6个的情况。此外,雷达图还要求每个变量都是数值型变量,且具有大小关系。

图2.9所示是根据迈阿密热火队5名篮球首发队员的5项数据绘制的雷达图,这5项数据分别是得分、篮板、助攻、抢断和封盖。

图2.9 迈阿密热火队选手数据的雷达图

这5个变量组成了一个五角星,将每一个角上的数值缀连起来,则可得到一个不规则的五边形。球员的各项数据越高,对应的五边形面积就越大。

提示

当样本点过多时,雷达图中的线条就会彼此遮盖,使图形中的信息变得模糊。如果将样本点分开绘制,每一个样本点都单独绘制一个多变图形,则会避免这一问题,而这样绘制出的图形就是星图。

图2.10所示是根据150个花朵样本绘制的星图,每个样本都有5个变量,分别是花瓣宽度、花瓣长度、花萼宽度、花萼长度和种类。

根据这5个变量,每个样本都可绘制出一个五边形,且五边形的每一个角都由一条轴线和中心点连接了起来。显然,5条轴线分别对应5个变量的值,值越大,轴线就越长,画出的五边形也就越大。

这150个变量总共可绘制出150个五边形,观察图2.10,可以发现它们明显分为小、中、大3类,前50个五边形最小,中间的50个五边形较大一些,后50个五边形最大。根据五边形的形状可以将这些样本点分为3组。这3组样本点恰好对应着3种不同的花朵。

图2.10 根据150个花朵样本绘制的星图

脸谱图是与星图类似的一种图形,它创建的图形与星图相似,但它适合绘制变量非常多,即变量个数超过6个时的情况。

图2.11画出了30张脸谱,这些脸谱的脸型、五官、发型和颜色都有较大的差异,显然,脸谱越相似,就说明对应的观测值越相似。

图2.11 根据7个变量绘制的30张脸谱图

与星图相似,每一个样本点都可绘出一个脸谱。一张脸谱由15个变量构成,分别是脸的高度、宽度和结构;嘴唇的厚度、宽度和上翘角度;眼睛的高度和宽度;头发的高度、宽度和样式;鼻子的高度和宽度;耳朵的高度和宽度。

与星图相比,脸谱图更适合那些变量维数超过六维的数据,当变量个数少于15个时,将循环使用变量数据来绘制脸谱;当变量个数多于15个时,也可在脸谱上添加新的特征以反映数据结构。 omqpGHhxKhs+XJMKhztmhOn/sIgMfcGAF1m/VNg8YkWHmw/ugKg1VKcCvIholeWE

点击中间区域
呼出菜单
上一章
目录
下一章
×