购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

数据与变量

到目前为止,我们使用了很多次“数据”这个词。但是,在日常生活中,“数据”却是一个很暧昧的词,往往会成为误解的根源。我们再来了解一下“数据”与“变量”的定义。

例如:【例题1-1】中A组6个人的考试分数分别为:

50   60   40   30   70    50(分)

这6个数值组成的整体被称为“数据”,而测量对象对应的单个条目(例题中为考试分数)被称为“变量”。

注:变量也被称作“变数”。在统计学上,严格来说变量与变数是两个用途不同的术语,但在本书范围内可以通用。

实质型数据

“实质型数据”也被称作“分类数据”。例如血型、喜欢的食物、所支持的政党等无法用数字来衡量的变量(实质变量)所组成的数据。实质型数据(分类数据)即便每个项目都有编号,比如“1:A型、2:B型、3:O型、4:AB型”或“第1名:汉堡肉、第2名:拉面、第3名:寿司、第4名:烤肉”等,但是将这些数据进行加减运算的话却完全没有意义。

注:本书之后不再涉及实质型数据。

量化数据

当一些变量(量化的变量)做加减运算有意义时,由这些变量组成的数据被称作“量化数据”。量化数据可以被细分为两个类别,分别为:骰子的数字、汽车的数量、人数等只能取跨越型数值的数据(离散型数据);身高、体重、时间等可以取连续数值的数据(连续型数据)。

又是“离散型数据”又是“连续型数据”的,刚开始接触这两个术语的时候,可能会很不习惯,而且觉得难以理解。“离散型数据”是指两个相邻的项之间没有可取值的数据。比如骰子的数字1和2之间没有“1.5”,或者对汽车的数量进行计数时,10辆与11辆之间也没有“10.5辆”。将数据放在数轴上时,只能取跨越型数值的数据是“离散型数据”。

但是,测量身高时,在170cm与171cm之间,有身高为170.5cm的人是很正常的事,而且,如果对测量结果要求严格的话,在170.5cm与170.6cm之间,还会有身高170.55cm的人。像这样,不管怎么细分,永远都有更多可取数值的数据为“连续型数据”。

整理数据时,最基本的步骤如下:

整理数据的步骤

(1)整理频数分布表

(2)制作矩形图

频数分布表

首先,我们先来看几个术语。

·组:将数据以相同间隔分开的区间。

·组中值:各组上下限中间的数值。

·频数:各组中包含数值的数量。

·相对频数:各组数据频数在总频数中的占比。

·累计相对频数:逐级相对频数相加的和。

频数分布表就是将每组中的频数、相对频数、累计相对频数等做成一张表……就算这么说估计也不明白吧?

实际操作一遍就能理解了。我们这就来实际做一做。

N数学培训班对40名学生进行了突击测验(满分为100分)。测验成绩如下表所示:

N数学班的突击测验结果

即使看了这个表,仍然无法看出数据整体的倾向与特征。于是N先生将其整理成了频数分布表。

为此我们现将数据按照分数由低到高重新排列。

N数学班的突击测验结果(按分数排列)

为了制作频数分布表,下面要做的就是决定各组的组段值。像“10~15分”“15~20分”这样,以每5分为一组,或者是“0~20分”“20~40分”这样,以每20分为一组,都可以。不过需要注意的是,每组的数值范围太小的话,表格会变得过于复杂;反之数值范围过大则无法清楚地看出数据的倾向特征。

在该数据中,最低分为13分,最高分为97分,我们可以以10分间隔为一组(比如10~20分)。

冈田老师

分组取组段值时,可以参照下面的JIS(日本工业标准的简称。——编者注)标准。

将包含最大值与最小值在内的数据,分成5~20组时,用最大值与最小值之差(R)除以1、2、5(或者是10、20、50;0.1、0.2、0.5)等各备选范围,选择结果在5~20范围内的数。如果有两个不同的结果,那么,最大值与最小值之差大于100则取小,反之则取大。

具体来说就是:

·在1、2、5、10、20、50等数值中选择适当的值,作为组段值。

·将组数控制在5~20之间。

·注意各组中的单项,不能过多或过少。

依照上面的数据计算:

R(范围):97-13=84

那么

84÷1=84

84÷2=42

84÷5=16.8

84÷10=8.4

84÷20=4.2

商在“5~20”范围内的,分别是除以5和除以10两个结果。现在,数据中共有40个数值,最大值与最小值之差小于100,应该取大,即选择“10”,这就是JIS标准的应用。

N数学班突击测验的结果(频数分布表)

观察频数分布表时的注意事项

(1)频数分布表中无法体现数据中每个项目的具体数值。例如,之前的数据中,“40~50分”一组的数据中实际包括“43、44、44、48”4个数值,但是,在频数分布表中,这一组的组中值为“45”,就是说,在频数分布表中,这些数都被认为是“45”。该组数由组中值代表。

(2)相对频数是指“该组数的频数在整组数据频数中的占比”,所以计算方法是:

“40~50分”这一组的相对频数就是

(3)除了观察“某组数据在数据总体中所占的百分比是多少”,有时候也想知道“在这组数据以下(或以上)的数,在数据总体中所占的百分比为多少”。这个时候,就需要看累计频数了。

例如,以上数据中“10~60分”这一区间的累计频数为

0.025+0.075+0.125+0.100+0.175=0.500

因为结果是0.500,所以60分以下的学生人数占了全体学生人数的50%。 AliWMoEA5AMGAIAxCqv9dmoIXghgVAzQ9jfgd/rgvDPtRW/nr7BjgleYWGQseUC/

点击中间区域
呼出菜单
上一章
目录
下一章
×