购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

3.3 统计量

统计量是统计学中的一个重要的基础概念,指的是用于对数据进行分析和检验的变量,主要作用是把样本中有关总体的信息汇集起来。统计量只依赖所分析的样本,不依赖总体。在统计学中,一个核心概念是统计推断,即从样本推断总体。统计推断通常需要先进行随机抽样,然后计算所抽取样本的一系列统计量,最后基于这些统计量来推断总体参数。常用的统计量可以分为3类:集中趋势统计量、离散趋势统计量和分布趋势统计量。

3.3.1 集中趋势统计量

集中趋势指的是样本观测值趋向于某一中心位置的趋势。集中趋势统计量反映了观测值聚集于中心位置的分布情况。常见的集中趋势统计量包括平均值、中位数、众数与总和等。

1.平均值与期望

平均值是样本层面的统计量,因为样本的取值是可以直接观测的。平均值是各个样本取值的算术平均数。例如,某组样本数据有 n 个数值,则其平均值的计算公式为:

期望则是总体层面的统计量,用于估计总体的均值。因为总体期望通常是不可直接观测的,所以需要通过估计来获得,这涉及概率的概念。期望值是随机变量的各个取值与对应概率的加权平均。对于离散型随机变量,期望值的计算公式为:

对于连续型随机变量,期望值的计算公式为:

2.中位数

中位数是将总体单位某一变量的各个变量值按大小顺序排列,处在数列中间位置的变量值就是中位数。

在资料未分组的情况下,将各变量值按大小顺序排列后,首先可以确定中位数的位置,可用公式 确定,其中 n 代表总体单位的项数;然后根据中点位置确定中位数。

有两种情况:当 n 为奇数项时,中位数是位于中间位置的变量值;当 n 为偶数项时,中位数是位于中间位置的两个变量值的简单算术平均数。

3.众数

众数是某一变量出现次数最多的样本观测值。假定有一支足球队,11名主力队员在某场球赛中的得分分别为3,4,5,6,6,7,7,8,8,8,9,10。其中8出现的次数最多,出现了3次,因此这组数据的众数为8。需要注意的是,众数可能没有,也可能有多个。例如,一支足球队的11名主力队员在某场球赛中的得分分别为0,1,2,3,4,5,6,7,8,9,10,因为每个数字都只出现了一次,所以这组数据没有众数;又如足球队11名主力队员在某场球赛中的得分分别为0,1,2,3,4,5,6,6,6,8,8,8,因为数字6和8都出现了3次,所以这组数据有2个众数,即6和8。

4.总和

总和是所有样本值的合计。假定有一支足球队,11名主力队员在某场球赛中的进球数分别为0,0,0,0,0,0,1,2,0,1,0,0,则这支球队的进球数总和为1+2+1=4。

3.3.2 离散趋势统计量

离散趋势指样本观测值偏离中心位置的趋势。离散趋势统计量反映了所有观测值偏离中心的分布情况。离散趋势的常用统计量有方差、标准差、均值标准误差、最大值、最小值、极差、变异系数、百分位数和 Z 标准化得分等。

1.方差和标准差

方差是总体各单位变量值与其算术平均数的离差平方的算术平均数,用σ 2 表示。方差的平方根就是标准差σ。与方差不同的是,标准差是具有量纲的,它与变量值的计量单位相同,其实际意义要比方差清楚。因此,在对社会经济现象进行分析时,通常更多使用标准差。

方差和标准差的计算公式为:

在正态分布中,68%的个案位于均值的一倍标准差范围内,95%的个案位于均值的两倍标准差范围内。例如,如果一组数据服从正态分布,且平均值为100,标准差为10,则68%的个案将在90到110之间,95%的个案将在80到120之间。

2.均值标准误差

一个容易与标准差混淆的统计量是均值标准误差。均值标准误差是样本均值的标准差,是描述样本均值和总体均值平均偏差程度的统计量,也是表示抽样误差大小的指标。

3.最大值、最小值和极差

最大值是样本数据中取值最大的数据,最小值是样本数据中取值最小的数据。最大值与最小值的差即为极差,又称为范围、全距,用 R 表示:

R = X max - X min

4.变异系数

变异系数是将标准差或平均差与其平均数对比所得的比值,又称离散系数。其计算公式为:

V σ V D 分别表示标准差系数和平均差系数。变异系数可用于比较不同数列的变异程度。其中常用的变异系数是标准差系数。

5.百分位数

如果将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数。例如,处于10%位置的值称为第10百分位数。

最为常用的是四分位数,指将数据分为4等份,处于3个分割点位置的数值分别是25%、50%和75%位置上的值。

百分位数适用于定序数据及更高级的数据,但不能用于定类数据。百分位数的优点是不受极端值的影响。

6. Z 标准化得分

Z 标准化得分是某一数据与平均值的距离以标准差为单位的测量值。其计算公式为:

Z i 即为 X i Z 标准化得分。标准化值不仅能表明各原始数据在一组数据分布中的相对位置,而且能在不同分布的各组原始数据之间进行比较,因此常用于统一量纲差距,并在回归分析、聚类分析中应用较多。

3.3.3 分布趋势统计量

1.偏度

偏度是衡量分布偏斜方向及程度的统计量,用于度量分布的不对称性。正态分布是对称的,偏度值为0。具有显著正偏度值的分布具有很长的右尾,具有显著负偏度值的分布则具有很长的左尾。一般情况下,如果计算得到的偏度值超过其标准误差的两倍,则认为这组数据不具有对称性。

偏度的计算公式为:

2.峰度

峰度是频率分布曲线与正态分布相比较时,分布顶端尖峭程度的度量。在SPSS中,正态分布的峰度统计量的值为0;正峰度值表示相对于正态分布,观测值更为集中在均值附近,表现为分布峰度较尖,尾部较薄;负峰度值表示相对于正态分布,观察值更为分散,表现为分布峰度较低,尾部较厚。

峰度的计算公式为: 3T2ZzcQxWNWYFT6iySOnXNS6sbTC8KAPcUHqJAEQZruaAjgSmZz3zv1jLj2RIrsh

点击中间区域
呼出菜单
上一章
目录
下一章
×