



统计量是统计学中的一个重要的基础概念,指的是用于对数据进行分析和检验的变量,主要作用是把样本中有关总体的信息汇集起来。统计量只依赖所分析的样本,不依赖总体。在统计学中,一个核心概念是统计推断,即从样本推断总体。统计推断通常需要先进行随机抽样,然后计算所抽取样本的一系列统计量,最后基于这些统计量来推断总体参数。常用的统计量可以分为3类:集中趋势统计量、离散趋势统计量和分布趋势统计量。
集中趋势指的是样本观测值趋向于某一中心位置的趋势。集中趋势统计量反映了观测值聚集于中心位置的分布情况。常见的集中趋势统计量包括平均值、中位数、众数与总和等。
平均值是样本层面的统计量,因为样本的取值是可以直接观测的。平均值是各个样本取值的算术平均数。例如,某组样本数据有
共
n
个数值,则其平均值的计算公式为:
期望则是总体层面的统计量,用于估计总体的均值。因为总体期望通常是不可直接观测的,所以需要通过估计来获得,这涉及概率的概念。期望值是随机变量的各个取值与对应概率的加权平均。对于离散型随机变量,期望值的计算公式为:
对于连续型随机变量,期望值的计算公式为:
中位数是将总体单位某一变量的各个变量值按大小顺序排列,处在数列中间位置的变量值就是中位数。
在资料未分组的情况下,将各变量值按大小顺序排列后,首先可以确定中位数的位置,可用公式
确定,其中
n
代表总体单位的项数;然后根据中点位置确定中位数。
有两种情况:当 n 为奇数项时,中位数是位于中间位置的变量值;当 n 为偶数项时,中位数是位于中间位置的两个变量值的简单算术平均数。
众数是某一变量出现次数最多的样本观测值。假定有一支足球队,11名主力队员在某场球赛中的得分分别为3,4,5,6,6,7,7,8,8,8,9,10。其中8出现的次数最多,出现了3次,因此这组数据的众数为8。需要注意的是,众数可能没有,也可能有多个。例如,一支足球队的11名主力队员在某场球赛中的得分分别为0,1,2,3,4,5,6,7,8,9,10,因为每个数字都只出现了一次,所以这组数据没有众数;又如足球队11名主力队员在某场球赛中的得分分别为0,1,2,3,4,5,6,6,6,8,8,8,因为数字6和8都出现了3次,所以这组数据有2个众数,即6和8。
总和是所有样本值的合计。假定有一支足球队,11名主力队员在某场球赛中的进球数分别为0,0,0,0,0,0,1,2,0,1,0,0,则这支球队的进球数总和为1+2+1=4。
离散趋势指样本观测值偏离中心位置的趋势。离散趋势统计量反映了所有观测值偏离中心的分布情况。离散趋势的常用统计量有方差、标准差、均值标准误差、最大值、最小值、极差、变异系数、百分位数和 Z 标准化得分等。
方差是总体各单位变量值与其算术平均数的离差平方的算术平均数,用σ 2 表示。方差的平方根就是标准差σ。与方差不同的是,标准差是具有量纲的,它与变量值的计量单位相同,其实际意义要比方差清楚。因此,在对社会经济现象进行分析时,通常更多使用标准差。
方差和标准差的计算公式为:
在正态分布中,68%的个案位于均值的一倍标准差范围内,95%的个案位于均值的两倍标准差范围内。例如,如果一组数据服从正态分布,且平均值为100,标准差为10,则68%的个案将在90到110之间,95%的个案将在80到120之间。
一个容易与标准差混淆的统计量是均值标准误差。均值标准误差是样本均值的标准差,是描述样本均值和总体均值平均偏差程度的统计量,也是表示抽样误差大小的指标。
最大值是样本数据中取值最大的数据,最小值是样本数据中取值最小的数据。最大值与最小值的差即为极差,又称为范围、全距,用 R 表示:
R = X max - X min
变异系数是将标准差或平均差与其平均数对比所得的比值,又称离散系数。其计算公式为:
V σ 和 V D 分别表示标准差系数和平均差系数。变异系数可用于比较不同数列的变异程度。其中常用的变异系数是标准差系数。
如果将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数。例如,处于10%位置的值称为第10百分位数。
最为常用的是四分位数,指将数据分为4等份,处于3个分割点位置的数值分别是25%、50%和75%位置上的值。
百分位数适用于定序数据及更高级的数据,但不能用于定类数据。百分位数的优点是不受极端值的影响。
Z 标准化得分是某一数据与平均值的距离以标准差为单位的测量值。其计算公式为:
Z i 即为 X i 的 Z 标准化得分。标准化值不仅能表明各原始数据在一组数据分布中的相对位置,而且能在不同分布的各组原始数据之间进行比较,因此常用于统一量纲差距,并在回归分析、聚类分析中应用较多。
偏度是衡量分布偏斜方向及程度的统计量,用于度量分布的不对称性。正态分布是对称的,偏度值为0。具有显著正偏度值的分布具有很长的右尾,具有显著负偏度值的分布则具有很长的左尾。一般情况下,如果计算得到的偏度值超过其标准误差的两倍,则认为这组数据不具有对称性。
偏度的计算公式为:
峰度是频率分布曲线与正态分布相比较时,分布顶端尖峭程度的度量。在SPSS中,正态分布的峰度统计量的值为0;正峰度值表示相对于正态分布,观测值更为集中在均值附近,表现为分布峰度较尖,尾部较薄;负峰度值表示相对于正态分布,观察值更为分散,表现为分布峰度较低,尾部较厚。
峰度的计算公式为: