假设检验是一种判断命题对错的统计推断方式,首先对总体分布的某种规律提出一个假设命题,通过样本数据进行推断,根据选定的统计和检验方法计算数据样本的相关统计量,并由此判断提出假设的对或错,接受或拒绝提出的假设。
引例: 为检验某降血糖药品对糖尿病患者是否有效,随机抽取9位实验者,记录服药前的血糖值,然后让每位实验者服用该药物,连续服药一周后,在同样的条件下再次记录实验者的血糖值。血糖降低数值(服药前的血糖值-服药后的血糖值)如下(单位为mmol/L):
1.6, 0.7,-0.2, 1.2, -0.7, 0.1, 2.3, -0.9, 1.5
那么根据测试样本能否判断该药品是否有效?
上述问题就是一个假设检验的问题,包含以下要素:
❑ 总体: 我们研究的总体是所有糖尿病患者服药一周前后的血糖降低数值的总体,这个总体是理想状态下的,我们没有办法在所有符合条件的人群中做实验。假设总体服从以 μ 为均值, σ 2 为方差的正态分布 N ( µ , σ 2 ),为了分析方便,我们进一步假设方差已知, σ 2 =0.36。此时总体的均值 μ 未知。
❑ 假设命题: 我们需要选择一个假设命题来检验,这个命题可以是这个药有效,也可以是这个药无效。总体分布的均值 μ 是衡量药是否有效的关键, μ =0表示药无效, μ <0表示吃药后血糖升高了,药起到了副作用,只有 μ >0表示吃药后血糖降低,支持“药有效”这个结论。
❑ 样本: 从总体中抽出的9个参与实验的人是我们选择研究的样本,我们需要通过样本数据进行推断,判断提出的假设命题的对错。
下面我们以上述问题为例,介绍假设检验的基本步骤。
1.提出假设
首先需要提出待检验的原假设,记为 H 0 ,以及备择假设,记为 H 1 ,这两个假设通常是完全对立的。选择原假设依赖于立场、惯例和方便性,原则是:如果错误地拒绝某一个假设比错误地拒绝其对立的假设带来的后果更严重,则以此假设为原假设。为解释某些现象或者效果的存在性,原假设通常选定为无差异或无效果,这样,拒绝原假设则表示有较强理由支持备择假设,即有差异或有效果。
根据上述原则,对于示例中的问题,原假设可以设定为该药物没有作用。其数学表述为:服药后的血糖降低值 X ~ N ( μ , σ 2 ), σ 2 =0.36。
假设检验: H 0 : µ =0, H 1 : µ> 0。
其中,备择假设 H 1 : µ >0,表示服药后血糖确实降低了,因此只选择 µ >0这一侧作为备择假设, µ <0则对应于服药后血糖反而升高了,不应作为备择假设,这种只选择一侧的备择假设称为单边假设,而 µ ≠0称为双边假设。
2.选择检验统计量和拒绝域
如果样本数据{ X 1 , X 2 ,…, X n }的统计量 T 的取值大小与原假设 H 0 是否成立有密切联系,就可以将 T 称为该假设检验问题的 检验统计量 ,而对应于拒绝原假设 H 0 的样本值的范围称为 否定域 ,记为 W ,其补集 称为接受域。确定一个检验,需要指定其接受域或否定域。示例中用样本的均值 来估计总体的均值 μ ,则 作为检验统计量,拒绝域为
≥ C ,即样本均值大于临界值 C 时,拒绝药物无效的原假设 H 0 ,接受药物有效的备择假设 H 1 。临界值 C 的选择是假设检验问题的关键。
3.选择显著性水平
由于样本存在随机性,检验不可能100%正确,检验结果与真实情况可能不吻合。客观事实只有两种结果,原假设成立或者备择假设成立。而检验的结果也只有两种,接受或者拒绝原假设。因此,如表3.1所示,有下列4种情况,其中两种检验结果符合实际,另外两种则与实际相悖,对应 两类错误:第一类错误 是原假设 H 0 为真,但由于随机性样本观测值落在拒绝域,而拒绝原假设 H 0 ,犯第一类错误的概率通常用 α 表示,即
P (拒绝 H 0 | H 0 为真)= α
第二类错误 是原假设 H 0 为假,即 H 1 成立,但由于随机性,样本观测值落在接受域中,从而接受原假设 H 0 ,犯第二类错误的概率通常用 β 表示,即
P (接受 H 0 | H 0 为假)= β
表3.1 假设检验两类错误
在患病检验中,如果发病率较低,通常可以将“被检验者没有患病”作为原假设 H 0 。如果检验犯了第一类错误,被检验者无病却被诊断为患病,这种情况也称为“ 假阳性 ”;如果检验犯了第二类错误,被检验者患病却被诊断为无病,这种情况也称为“ 假阴性 ”。
在示例中,如果犯了第一类错误,会把原本无降糖效果的药物认定为有效,令使用药物的患者蒙受损失;如果犯了第二类错误,会把原来有效的药物认定为无效,使开发药物的公司蒙受损失。
由于两类错误都会带来一定的损失,我们希望在假设检验时犯两类错误的概率都尽量小。但是由于随机性存在,错误在所难免,而这两类错误是相互对立的:在样本数量固定的情况下,降低某一类错误的概率通常也会导致另一类错误概率的升高。对于示例中的情况,假如我们想降低第一类错误,降低把原本无降糖效果的药物认定为有效的可能性,就要更严格地把关检验条件,提高阈值(比如血糖降低需要大于1mmol/L才认定为有效),这样就会提高第二类错误的概率,很多有效果但是没有这么强效的药物会被认定为无效,但是在这个例子中,患者的治疗效果与企业的收益相比,前者确实更为重要,因而更严格的标准是合理的。
先保证第一类错误的概率不超过定值 α ,最常用的是 α =0.05,根据不同问题的要求,有时也会取更宽松的 α =0.1,或更严格的 α =0.01,在限制 α 的情况下,使第二类错误的概率尽可能小,此原则也称为“ 奈曼-皮尔逊原则 ”。在假设检验中,如果犯第一类错误的概率不大于 α ,则称该检验是 显著性水平 为 α 的显著性检验。
4.确定拒绝域
根据选定的显著性水平以及检验统计量的分布,可以确定样本的拒绝域。根据样本观测值计算样本检验统计量的数值,若其落在拒绝域内,表示如果 H 0 为真,则发生概率不大于显著性水平 α 的小概率事件在这次抽样中发生;而我们认为小概率事件不大可能在一次抽样中发生,这就造成了矛盾,以反证法可判断原假设有误,则拒绝 H 0 。
在示例中,取显著性水平 α =0.05,按照设定服药后的血糖降低值 X ~ N ( μ , σ 2 ), σ 2 =0.36,当 H 0 为真时, μ =0,等价于
此时拒绝域的临界值 C 满足
其中, Φ ( x )是正态分布 N (0, 1)的累积分布函数,可理解为区间( -∞ , x )上的正态分布 N (0, 1)与 x 轴围成的面积, ,则 , C ≥0.33也就是只要临界值 C ≥0.33,都可以满足犯第一类错误的概率小于0.05, C 越大,表示标准越严格,犯第一类错误的概率就越小,而犯第二类错误的概率也随之升高,在满足第一类错误符合要求的情况下,兼顾第二类错误,我们取拒绝域临界值 C =0.33,即拒绝域是
5.根据样本得出结论
最后,根据样本计算检验统计量,判断样本是否落入拒绝域,如果落入拒绝域,则拒绝原假设,否则接受原假设。
在示例中,根据样本可以计算出样本平均值 ,则根据检验统计量 ,样本落入拒绝域内,拒绝原假设药物无效,认为药物有效。
另一种做出拒绝或接受假设判断的方法是 p 值法。若 p 值大于0.05,表示无显著差异,则接受原假设;若 p 值小于0.05,表示差异显著,则拒绝原假设。 p 值法由计算出的 p 值与显著性水平 α 进行比较得出检验的结论, p < α 等价于样本落在拒绝域内,检验统计量为样本观测值是小概率事件,则在显著性水平 α 下拒绝原假设,称检验结果在水平 α 下是统计显著的;否则接受原假设,检验结果在水平 α 下是统计不显著的。
在示例中, H 0 为真, ,则 p 值是检验统计量 的概率,即
这个概率远小于显著性水平 α ,也就是说在原假设成立的情况下,小概率事件发生了,这是矛盾的,因此拒绝原假设。
上面介绍了假设检验的一般过程,根据不同的样本分布情况以及待检验的假设,我们需要使用不同的假设检验方法,常用的假设检验方法有Z检验、t检验、卡方检验、F检验等,下面分别简要介绍。
1.Z检验
Z检验又称U检验。在原假设 H 0 成立时,检验统计量服从标准正态分布,若样本含量较大,或样本含量虽小但总体标准差 σ 已知,可采用Z检验。Z检验是用标准正态分布的理论来判断差异发生的概率,以比较两个平均数的差异是否显著。
设 x 1 , x 2 ,…, x n 是来自正态总体 N ( µ , σ 2 )的样本,在总体方差已知的情况下,若检验一个样本平均数 与总体平均数 µ 0 的差异是否显著,假设 H 0 : µ = µ 0 , H 1 : µ ≠ µ 0 ,则检验统计量为
若检验来自两个总体的两组样本平均数的差异性,以判断其总体差异是否显著,则检验统计量为
2.t检验
在原假设 H 0 成立时,检验统计量服从t分布,若样本含量较小,总体标准差 σ 未知,呈正态分布,可采用t检验判定两个总体平均数的差异是否有统计学意义。
设 x 1 , x 2 ,…, x n 是来自正态总体 N ( µ , σ 2 )的样本,在总体方差未知的情况下对总体均值进行检验,假设 H 0 : µ = µ 0 , H 1 : µ ≠ µ 0 ,令 s 为样本标准差,则检验统计量为
3.卡方检验
卡方检验属于非参数检验,用于检验两个变量之间的关联性。在原假设 H 0 成立时,检验统计量服从 χ 2 分布,可采用 χ 2 检验。设 x 1 , x 2 ,…, x n 是来自正态总体 N ( µ , σ 2 )的样本,对其方差的检验, s 为样本标准差,检验统计量为
4.F检验
在原假设 H 0 成立时,检验统计量服从F分布。设 x 1 , x 2 ,…, x n 是来自正态总体 的样本, y 1 , y 2 ,…, y m 是来自正态总体 的样本,对两个总体方差进行检验,假设 H 0 : σ 1 = σ 2 , H 1 : σ 1 ≠ σ 2 。检验统计量 F 等于方差 与 之比,即