购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

3.1.2 分布

获得数值型数据之后,通常需要先行了解数据的分布,这将有助于我们初步把握数据的特征,为开展下一步的研究奠定基础。

1.一维分布

面对一个变量时,我们可以选择直方图和箱线图来呈现数据分布。直方图是数值型数据分布的图形表示,其横轴表示每个组的区间,纵轴表示频数,每个矩形的高代表各组对应的频数。

直方图和柱形图的区别如下。①意义不同,直方图呈现的是数据的分布,而柱形图呈现的则是数据的大小。②横轴作用不同,直方图的横轴表示数值型数据,柱形图的横轴表示分类数据。因此直方图中的矩形无法相互调换位置,而柱形图中的矩形排列与位置顺序无关。③矩形的形态不同,直方图上的矩形宽度是可以不一样的,这依赖于每组的组距。换言之,直方图的矩形宽度是有数值意义的,而柱形图的矩形宽度是一致的,并没有明确的数值意义。

例3-4 表3-4列示的是某电商平台客户单次消费金额(客单价)数据,请选择合适的可视化形式,描述客单价数据的分布。

表3-4 某电商平台客单价数据

分析: 由于这里只有一个数值变量,因此可以考虑用直方图来呈现数据分布。

直方图操作流程(Excel 2016):

全选数据(变量:客单价)→单击菜单“插入”→单击“插入统计图表”(见图3-7)→单击“直方图”

图3-7 “插入”菜单中的“插入统计图表”

某电商平台客单价直方图如图3-8所示。

图3-8 某电商平台客单价直方图

从直方图中我们可以大致判断出,客单价的分布总体上是对称的,呈现出单峰形态,大部分的客单价集中在234~751元,少部分客单价低至140元左右。

箱线图操作流程(Excel 2016):

全选数据(变量:客单价)→单击菜单“插入”→单击“插入统计图表”(见图3-7)→单击“箱线图”

图3-9是某电商平台客单价箱线图。

图3-9 某电商平台客单价箱线图

箱线图表达的分布信息与直方图是类似的。直方图的形态更为直观,箱线图则在数值上更为准确。箱线图中的箱体上边为 Q 3 (上四分位数),下边为 Q 1 (下四分位数),这两条边中间覆盖了50%的数据(见图3-9)。如果这个箱体的高度越小,则 Q 1 Q 3 的数值越接近,那么就意味着中间的数据越集中;反之,则越分散。此外,箱线图还会给出离群值,离群值一般定义为大于 Q 3 +1.5×( Q 3 -Q 1 )的值,或者小于 Q 1 -1.5×( Q 3 -Q 1 )的值。上限值和下限值则分别为去除离群值之后的最大值和最小值。

2.二维分布

当数据是二维数据,即有两个数值变量时,我们就无法用直方图来描述分布了。此时,二维密度图就是不错的选择。图3-10是由Python中的Seaborn库jointplot函数绘制的二维密度图。图3-10a是数据的散点图,也就是将两个变量的数据以点的形式,逐一落在二维平面上。图3-10a的上方和右侧分别是两个变量的一维直方图,刻画一维分布。图3-10b是其密度图形式,中间的密度图颜色越深,意味着个案的频数越高;反之,则频数越低。图3-10b的上方和右侧则用密度曲线替代了直方图。

图3-10 二维密度图示例 4mWczG5VxXBQ1/CesOlSrTfrpkrP/+Xn8gpqQ1THj3nH3epa0buPpjwvL6Wt5kL6

点击中间区域
呼出菜单
上一章
目录
下一章
×