方差分析从观测变量的方差入手,研究诸多控制变量中哪些变量对观测变量有显著影响,以及对观测变量有显著影响的各个控制变量的不同水平,进而对控制变量各个水平的交互搭配对观测变量影响的程度进行剖析。
方差分析认为控制变量值的变化受两类因素的影响:第一类是控制因素(控制变量)不同水平所产生的影响;第二类是随机因素(随机变量)所产生的影响。这里随机因素是指人为难以控制的因素,主要指试验过程中的抽样误差。
在方差分析中,有几个重要的基本概念。
(1)因素。在方差分析中,所要检验的对象称为因素。例如,在对不同行业的服务质量进行检验时,“行业”就是因素。在方差分析中,因素常常是某一个或多个离散型的分类变量。
(2)水平。因素的不同类别或不同取值称为因素的不同水平,因素的每一个水平可以看作一个总体。
(3)观测值。观测值就是进行方差分析时,在每个因素水平下收集到的样本数据。
方差分析一般应满足3个基本假设,即要求各个总体应服从正态分布,各个总体的方差应相同,以及观测值是独立的。
根据上述3个基本假设,对各个总体的显著性差异的推断就转化为对各个总体均值是否存在差异的推断了。假设因素有k个水平,每个水平的均值分别用μ 1 ,μ 2 ,…,μ k 表示,要检验k个水平的均值是否相等,需要提出如下假设检验问题,H 0 :μ 1 =μ 2 =…=μ k ,H 1 :μ 1 ,μ 2 ,…,μ k 不全相等。
与假设检验方法相比,方差分析不仅可以提高检验效率,同时由于它将所有的样本信息结合在一起,还增加了分析的可靠性。
方差分析研究分类型自变量对数值型因变量的影响,如它们之间有无关系、关系强度等。方差分析首先是检验总体的均值是否相等,进而判断分类型自变量对数值型自变量的显著性影响。而方差分析中判断总体均值是否相等一般是通过对数据误差来源的分析判断而得。因此,在方差分析中,区分误差的不同来源是很重要的,下面介绍误差来源分析及方差分析的基本思想。
误差来源有两种:随机误差和系统误差。
(1)即使在同一个因素下的观测值也是不同的,这是由于统计样本的抽取是随机的,所以它们之间的差异可以看成是由随机因素的影响造成的,或者说由样本的随机性造成的,这种误差称为随机误差。
(2)不同因素下的观测值是不同的,这种不同也可能是由因素自身的特点决定的,这种误差是由系统性因素造成的,称为系统误差。
数据误差是用平方和表示的。衡量同一水平下样本数据的误差,称为组内误差(With Groups);衡量不同水平下的样本误差称为组间误差(Between Groups)。组内误差只包含随机误差,而组间误差既包含随机误差又包含系统误差。
由误差来源的分析得知,判断分类型变量对数值型变量是否有影响,就是检验数值型变量存在差异的原因。如果这种差异主要是系统误差,则分类型变量对该数值存在显著影响。在方差分析的前提下,这一问题就转化为检验各因素水平下观测值之间的均值是否相等的问题。
根据统计学原理,组间均方和组内均方的比值构成F分布。给定显著性水平,通过和F分布统计量的概率p的比较,推断出总体均值是否存在显著性差异。
方差分析的核心是方差可分解。这里所说的方差是通过计算各观测值偏离均值的平方和再除以n−1 (样本量减1)得到的。这样,在给定n值的情况下,方差就是离差平方和,简称SST。方差分析认为,SST会受到因素变量和随机变量两方面的影响。因此,将观测变量的总离差平方和(SST)分解为组间离差平方和(SSB)与组内离差平方和(SSE),即
其中,SSB是由于因素变量的不同水平引起的观测变量的变动;SSE是由随机因素引起的观测变量的变动。如果由于因素变量引起的观测变量的变动占观测量总变动的比例足够大,则可以认为因素变量对观测变量的影响是显著的,即观测变量在不同因素水平下的均值存在显著差异。
方差分析中的检验是在组间变异(效应均方)与组内变异(误差均方)的方差比较的基础上进行的。即使在零假设前提下(总体中组间均数不存在差异),小样本均数仍有小的随机波动,因此组内变异方差应与组间变异方差大致相等。F检验是用来检验两个方差的比率是否明显大于1。
综上所述,方差分析的目的是检验均数(组间或变量间)差别是否具有统计学意义。该过程是通过分析方差实现的,即通过将总变异分解为SSE与SSB两个部分。如果后者大于前者,并且具有统计学意义,我们将拒绝零假设,即认为总体中均数间存在差异。