SPSS提供的基本统计量大致可以分为3类:描述集中趋势的统计量、描述离散趋势的统计量、描述分布形态的统计量。只有明确了这些基本统计量的定义及计算方法,才能采用正确的方法对已收集的数据进行分析。
统计学中的集中趋势统计量是由样本值确定的量,样本值有向这个数据集中的趋势。测度集中趋势就是寻找数据一般水平的代表值或中心值,不同类型的数据用不同的集中趋势测度值,选择哪种测度值取决于数据的类型。描述集中趋势的统计量有很多,根据集中趋势的定义不同,可以分为均值、中位数、众数、百分位数等。
I 均值(算术平均数)
均值又称为“算术平均数”,指一组数的平均值,其数学定义为
其中,n为样本容量,X i 为样本点的数值。样本均值反映了变量取值的集中趋势或者平均水平,是最常用的基本统计量。例如,计算某个学生的平均成绩、某一班级的平均成绩等,都需要用到这个统计量。
均值适用于数值型数据,但缺点是易受极端值的影响。
II 中位数
一组样本数据按升序或降序排列后,如果样本容量为奇数,则取中间位置的数值;如果为偶数,则取中间两个数据的平均值。
中位数受数据变化影响比均值大,但不受极值的影响,在经济部门的统计工作中应用比较广泛,例如,某公司职工年龄的中位数。
III 众数
样本中出现次数(频数)最多的数值,众数的优点是不受极端值的影响。众数具有不唯一性,在一组样本中可能无众数或有好几个众数。众数一般用于定类数据,也可用于定序数据和数值型数据,在定类数据中众数不是一个数,而是一个类别。
相邻两组频数相等时,众数组的中值即为众数。
IV 百分位数
类似于随机变量分位点的概念。将样本数据按升序排列后,排在前面p%的数据的右端点值称为样本的p分位数。常用的有4分位数(Quartiles),指的是将数据分为4等份,分别位于25%、50%和75%处的分位数。百分位数适用于定序数据及更高级的数据,不能用于定类数据。
百分位数的优点是不受极端值的影响。
统计学中描述离散趋势的统计量是样本值远离集中趋势统计量程度的定量化描述,说明了集中趋势测度值的代表程度,不同的数据有不同的集中趋势测度值。比较重要的离散趋势统计量有样本方差、样本标准差、均值标准误差、极差、离散系数等。
I 样本方差
样本方差的数学定义为
其中,n为样本容量,X i 为样本点的数值。从上述公式可以看出,样本方差是刻画样本数据关于均值的平均偏差平方的一个量,也是描述样本离散趋势的最常用的统计量。样本方差越大,表明样本值偏离样本平均值的可能性就越大。
II 样本标准差
由于样本方差的计算单位是样本值的平方,将样本方差开方后可以得到和样本值相同量纲的统计量,将样本方差开方后的统计量称为样本标准差。样本标准差和样本方差一样,也是度量样本离散程度的重要统计量。
III 均值标准误差
均值标准误差即样本均值的标准差,是描述样本均值和总体均值平均偏差程度的统计量。
IV 极差
极差是样本数据中最大值和最小值之差。显然,在样本容量相同的情况下,极差大的样本要比极差小的样本更分散,但极差易受样本最大值和最小值的影响,没有体现中间数值的信息,所以稳定性较差。
离散系数
离散系数也称标准差系数,即标准差与相应均值之比,主要用于测量相对离散程度,对不同组别的离散数据进行比较。离散系数消除了数据水平高低和计量单位的影响。
要从整体上把握样本数据的分布,仅有集中趋势和离散趋势统计量是不够的,还需要掌握数据分布的形态,例如,直方图的对称性、偏斜程度及陡缓程度等。关于描述数据分布形态的统计量主要有偏度和峰度。
I 偏度
偏度是描述取值分布形态对称性的统计量,由皮尔逊在1895年提出。偏度由样本的三阶中心矩与样本方差的3/2次方的比值而得,偏度的绝对值越大,表示数据分布的偏斜程度越高。来自正态总体的样本偏度近似为0。
偏态系数有两种测量方式,分别为皮尔逊偏度系数1和皮尔逊偏度系数2。偏度系数等于0的时候属于正态分布;偏度系数大于0的时候是右偏分布,表明较低的值占多数;偏度系数小于0的时候为左偏分布,表明较高的值占多数。
II 峰度
峰度是描述变量取值分布形态扁平程度的统计量,由皮尔逊在1905年提出。峰度等于0的时候,表示数据分布的扁平程度适中,即呈正态分布;峰度大于0的时候,表示数据呈扁平分布;峰度小于0,表明数据呈尖峰分布。
所以,在非参数检验中,将偏度和峰度的值是否接近0作为检验数据是否呈正态分布的重要依据。