人们在面对许多数据时,如果想仅凭观察数据把握其特点,就需要花费一定的时间。
如果给出的数据是定量变量,为了把握数据的分布,人们常常会使用 频数分布表 (图2-3)。制作频数分布表时,人们将数据分为几个区间,查看每个区间内的数据的个数。这种区间被称为“ 组 ”,每个组内的数据的个数被称为“ 频数 ”。
组的幅度被称为“ 组距 ”,根据其范围设定的不同,人们对频数分布表的印象会不同。 组距既不能过大也不能过小,需要设定为人们直观上比较容易看懂的数值。 在确定组距的时候,人们可以参考“斯透奇斯规则”,根据这个规则,在有n个数据时,组数可以通过1+log 2 n求出。
假设,我们手上有日本全国各个都道府县的人口、面积等数据,都道府县共有47个,1+log 2 47=6.55,那么我们可以将组数确定为7个左右。
根据频数分布表制作的图形被称为“ 直方图 ”。横轴表示组,纵轴表示频数,将组从小到大进行排列(图2-4)。
人们用直方图来处理的数据为定量变量,因为是连续数值,所以一般在相邻的柱子之间没有间距。
频数较少的时候,人们有时会将几个组合在一起展示。但是,在改变组距之后直接制作直方图,高度会有变化,有可能会引起误解。此时,人们会采取将直方图宽度加至原来的2倍,将高度减为原来的一半的方法。
图2-3 制作频数分布表
图2-4 直方图(根据图2-3的数据制作而成)
要点
为了把握定量变量的数据分布,人们会制作频数分布表、直方图。
如果我们改变了组距,频数分布表就会发生变化,所以组距设定一定要合理。