语言学研究统计分析方法最新章节_鲍贵著

4.3.1 第一类错误、第二类错误和统计效力的基本概念

显著性检验（test of significance）指根据样本数据对总体特征的假设（hypothesis）进行推理性检验。所有的显著性检验都开始于虚无假设或零假设（null hypothesis，记作 H ₀ ）。虚无假设是在统计检验前假定为真的假设或是被用作论证前提的假设。与虚无假设对立的假设是备择假设（alternative hypothesis，记作 H ₁ 或 H _a ），也称研究假设（research hypothesis）。备择假设可以是单侧的（one－sided）或单尾的（one－tailed），也可以是双侧的（two－sided）或双尾的（two－tailed），或者说可以是有方向性的（directional）或无方向性的（non－directional）。譬如，我们要检验某个抽样总体的平均数（ μ ₁ ）是否等同于某个总体的平均数 μ 0。零假设（ H ₀ ）是： μ ₁ ＝ μ ₀ 。单侧备择假设（ H ₁ ）是： μ ₁ ＜ μ ₀ 或者 μ ₁ ＞ μ ₀ 。双侧备择假设（ H ₁ ）是： μ ₁ ≠ μ ₀ 。虚无假设和备择假设具有互补性。即，要么零假设为真，备择假设为误；要么零假设为误，备择假设为真。显著性检验的关键问题是，如何推断零假设为误？

通常情况下，我们不太可能知道抽样总体的参数（parameter）值（如总体平均数 μ ），我们只能根据抽样得到的样本统计量（statistics）（如样本平均数）对之进行估计。由于抽样受到随机变化的影响，每次抽样得到的样本统计量很可能都会不同。置信水平与错误率（error rate）是联系在一起的。如果我们采用95％的置信水平错误拒绝零假设（即 μ ₁ ＝ μ ₀ ），则所犯的错误率为1－0.95＝0.05。这种错误称作第一类错误（type I error），错误率记作 α 。第一类错误率是在统计检验前就已经确定了的、能够被接受的错误率。如果我们采用95％的置信水平错误接受零假设，则所犯的错误称作第二类错误（type II error），错误率称作 β 。正确拒绝错误的零假设的概率称作统计效力（statistical power），计算上等于1－ β 。第二类错误（ β ）通常设定为0.1，即效力为0.9，0.8常被视作可接受的最小效力值（即 β ＝0.2）（Batterham ＆ Atkinson，2005，p.158）。

实际研究中，研究者并不真正知道会犯哪类错误，因而既需要控制第一类错误率，以避免在零假设为真的情况下得到虚假的研究发现，又需要控制第二类错误率（即提高统计效力），以便在研究假设为真的情况下能够得到研究发现。统计显著性检验与第一类错误、第二类错误和统计效力的关系如表4.1所示。

表4.1 统计显著性检验中的第一类错误、第二类错误和统计效力

表4.1第一列表示零假设为真或为误的真实情形，第二列和第三列显示实际研究中基于样本的推理判断。零假设为真时，如果拒绝零假设，则研究犯了第一类错误，错误率为 α ；如果不拒绝或保留零假设，则研究结论正确，置信水平为1－ α ，即在所有重复性研究中大约（1－ α ）×100％的研究得出正确结论。零假设为误时，如果拒绝或不保留零假设，则研究结论正确，即在所有重复性研究中大约（1－ β ）×100％的研究得出正确结论；如果不拒绝或保留零假设，则研究犯了第二类错误，错误率为 β 。需要注意的是，实际研究中，我们并不知道零假设是否为真，统计显著性检验的前提是假设零假设为真，寻找拒绝零假设的证据。

由于通常认为第一类错误比第二类错误更严重，且第一类错误率比第二类错误率更容易控制，研究者采用的常规做法是先验地（a priori）设定可接受的第一类错误率，以此作为显著性水平开展统计检验（Ugarte et al .，2015，p.522）。