购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2-2 从范围的角度对数据加以区分

频数分布表、组、频数、组距、直方图

查看数据的分布

人们在面对许多数据时,如果想仅凭观察数据把握其特点,就需要花费一定的时间。

如果给出的数据是定量变量,为了把握数据的分布,人们常常会使用 频数分布表 (图2-3)。制作频数分布表时,人们将数据分为几个区间,查看每个区间内的数据的个数。这种区间被称为“ ”,每个组内的数据的个数被称为“ 频数 ”。

组的幅度被称为“ 组距 ”,根据其范围设定的不同,人们对频数分布表的印象会不同。 组距既不能过大也不能过小,需要设定为人们直观上比较容易看懂的数值。 在确定组距的时候,人们可以参考“斯透奇斯规则”,根据这个规则,在有n个数据时,组数可以通过1+log 2 n求出。

假设,我们手上有日本全国各个都道府县的人口、面积等数据,都道府县共有47个,1+log 2 47=6.55,那么我们可以将组数确定为7个左右。

用图形来表示数据的分布

根据频数分布表制作的图形被称为“ 直方图 ”。横轴表示组,纵轴表示频数,将组从小到大进行排列(图2-4)。

人们用直方图来处理的数据为定量变量,因为是连续数值,所以一般在相邻的柱子之间没有间距。

频数较少的时候,人们有时会将几个组合在一起展示。但是,在改变组距之后直接制作直方图,高度会有变化,有可能会引起误解。此时,人们会采取将直方图宽度加至原来的2倍,将高度减为原来的一半的方法。

图2-3 制作频数分布表

图2-4 直方图(根据图2-3的数据制作而成)

要点

为了把握定量变量的数据分布,人们会制作频数分布表、直方图。

如果我们改变了组距,频数分布表就会发生变化,所以组距设定一定要合理。 zYaeVNCD4oO27rkzt6RWC+YRsdw65R0BYF1wXuB/0IkLWte3u5DVD8HVvCpoWWKB

点击中间区域
呼出菜单
上一章
目录
下一章
×