SPSS统计学与案例应用精解最新章节_张甜著

3.3　统计量

统计量是统计学中的一个重要的基础概念，指的是用于对数据进行分析和检验的变量，主要作用是把样本中有关总体的信息汇集起来。统计量只依赖所分析的样本，不依赖总体。在统计学中，一个核心概念是统计推断，即从样本推断总体。统计推断通常需要先进行随机抽样，然后计算所抽取样本的一系列统计量，最后基于这些统计量来推断总体参数。常用的统计量可以分为3类：集中趋势统计量、离散趋势统计量和分布趋势统计量。

3.3.1　集中趋势统计量

集中趋势指的是样本观测值趋向于某一中心位置的趋势。集中趋势统计量反映了观测值聚集于中心位置的分布情况。常见的集中趋势统计量包括平均值、中位数、众数与总和等。

1．平均值与期望

平均值是样本层面的统计量，因为样本的取值是可以直接观测的。平均值是各个样本取值的算术平均数。例如，某组样本数据有共 n 个数值，则其平均值的计算公式为：

期望则是总体层面的统计量，用于估计总体的均值。因为总体期望通常是不可直接观测的，所以需要通过估计来获得，这涉及概率的概念。期望值是随机变量的各个取值与对应概率的加权平均。对于离散型随机变量，期望值的计算公式为：

对于连续型随机变量，期望值的计算公式为：

2．中位数

中位数是将总体单位某一变量的各个变量值按大小顺序排列，处在数列中间位置的变量值就是中位数。

在资料未分组的情况下，将各变量值按大小顺序排列后，首先可以确定中位数的位置，可用公式确定，其中 n 代表总体单位的项数；然后根据中点位置确定中位数。

有两种情况：当 n 为奇数项时，中位数是位于中间位置的变量值；当 n 为偶数项时，中位数是位于中间位置的两个变量值的简单算术平均数。

3．众数

众数是某一变量出现次数最多的样本观测值。假定有一支足球队，11名主力队员在某场球赛中的得分分别为3，4，5，6，6，7，7，8，8，8，9，10。其中8出现的次数最多，出现了3次，因此这组数据的众数为8。需要注意的是，众数可能没有，也可能有多个。例如，一支足球队的11名主力队员在某场球赛中的得分分别为0，1，2，3，4，5，6，7，8，9，10，因为每个数字都只出现了一次，所以这组数据没有众数；又如足球队11名主力队员在某场球赛中的得分分别为0，1，2，3，4，5，6，6，6，8，8，8，因为数字6和8都出现了3次，所以这组数据有2个众数，即6和8。

4．总和

总和是所有样本值的合计。假定有一支足球队，11名主力队员在某场球赛中的进球数分别为0，0，0，0，0，0，1，2，0，1，0，0，则这支球队的进球数总和为1+2+1=4。

3.3.2　离散趋势统计量

离散趋势指样本观测值偏离中心位置的趋势。离散趋势统计量反映了所有观测值偏离中心的分布情况。离散趋势的常用统计量有方差、标准差、均值标准误差、最大值、最小值、极差、变异系数、百分位数和 Z 标准化得分等。

1．方差和标准差

方差是总体各单位变量值与其算术平均数的离差平方的算术平均数，用σ ² 表示。方差的平方根就是标准差σ。与方差不同的是，标准差是具有量纲的，它与变量值的计量单位相同，其实际意义要比方差清楚。因此，在对社会经济现象进行分析时，通常更多使用标准差。

方差和标准差的计算公式为：

在正态分布中，68%的个案位于均值的一倍标准差范围内，95%的个案位于均值的两倍标准差范围内。例如，如果一组数据服从正态分布，且平均值为100，标准差为10，则68%的个案将在90到110之间，95%的个案将在80到120之间。

2．均值标准误差

一个容易与标准差混淆的统计量是均值标准误差。均值标准误差是样本均值的标准差，是描述样本均值和总体均值平均偏差程度的统计量，也是表示抽样误差大小的指标。

3．最大值、最小值和极差

最大值是样本数据中取值最大的数据，最小值是样本数据中取值最小的数据。最大值与最小值的差即为极差，又称为范围、全距，用 R 表示：

R = X _max - X _min

4．变异系数

变异系数是将标准差或平均差与其平均数对比所得的比值，又称离散系数。其计算公式为：

V _σ 和 V _D 分别表示标准差系数和平均差系数。变异系数可用于比较不同数列的变异程度。其中常用的变异系数是标准差系数。

5．百分位数

如果将一组数据从小到大排序，并计算相应的累计百分位，则某一百分位所对应数据的值就称为这一百分位的百分位数。例如，处于10%位置的值称为第10百分位数。

最为常用的是四分位数，指将数据分为4等份，处于3个分割点位置的数值分别是25%、50%和75%位置上的值。

百分位数适用于定序数据及更高级的数据，但不能用于定类数据。百分位数的优点是不受极端值的影响。

6． Z 标准化得分

Z 标准化得分是某一数据与平均值的距离以标准差为单位的测量值。其计算公式为：

Z _i 即为 X _i 的 Z 标准化得分。标准化值不仅能表明各原始数据在一组数据分布中的相对位置，而且能在不同分布的各组原始数据之间进行比较，因此常用于统一量纲差距，并在回归分析、聚类分析中应用较多。

3.3.3　分布趋势统计量

1．偏度

偏度是衡量分布偏斜方向及程度的统计量，用于度量分布的不对称性。正态分布是对称的，偏度值为0。具有显著正偏度值的分布具有很长的右尾，具有显著负偏度值的分布则具有很长的左尾。一般情况下，如果计算得到的偏度值超过其标准误差的两倍，则认为这组数据不具有对称性。

偏度的计算公式为：

2．峰度

峰度是频率分布曲线与正态分布相比较时，分布顶端尖峭程度的度量。在SPSS中，正态分布的峰度统计量的值为0；正峰度值表示相对于正态分布，观测值更为集中在均值附近，表现为分布峰度较尖，尾部较薄；负峰度值表示相对于正态分布，观察值更为分散，表现为分布峰度较低，尾部较厚。

峰度的计算公式为：

3.3 统计量

3.3.1 集中趋势统计量