购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

22 关于 P 值不得不说的事儿
—— P 值之争

曾 琳 赵一鸣

Nature 2014年2月12日发表了一篇新闻题为“Scientific method: Statistical errors”,其中副标题就提到: P 值虽然是统计有效性的黄金标准,并不像许多科学家认为的那么可靠。也就是说,很多科学家在写论文时其实错用或滥用了 P 值这个概念。

其中有一段文字,也许研究者,尤其是那些被 P 值大于0.05困扰的研究者,读起来会觉得非常解气。有人认为 P 值就像苍蝇一样烦人却挥之不去,或者像皇帝的新衣一样是个大家都忽视却明显的问题;甚至有人建议把假设检验改名为统计假设推断检验(statistical hypothesis inference testing)而且要大力推广它的缩写:SHIT。

那么 P 值到底是什么呢?说到 P 值,不得不说说统计学上著名的Fisher和Neyman-Pearson之争。

P 值是著名英国统计学家R.A.Fisher在20世纪20年代首先提出的,他在创立假设检验理论时提出 P 值的概念。他认为假设检验是一种程序,研究人员依照这一程序可以对某一总体参数形成一种判断。也就是说,他认为假设检验是数据分析的一种形式,是人们在研究中加入的主观信息。

做统计推断时,实验者首先要提出一个“零假设(null hypothesis)”,这个假设往往是研究者要攻击或者反对的结论,比如两组间没有差异或不相关。然后规定一个“显著程度(significance level)”,Fisher将之规定0.05,因为他认为20次出现1次已经算得上“古怪(odd)”的了。事实上,0.05没有严格的数学意义,“显著程度”是人为规定的,只是约定俗成定成0.05了。当年我的统计老师告诉我“显著程度”或显著性指的是小概率事件发生的概率,通常认为是5%。接着,对一组特定的实验数据,计算与这组数据以及比这组数据更加极端情况的概率,称之为 P 值( P value);最后比较 P 值和0.05的大小,如果 P <0.05,下结论“在零假设下,要么我们观察到了小概率事件,要么我们的理论是错误的”,如果 P ≥0.05,下结论“我们没有充足的证据拒绝零假设”。

Fisher的理论中,做 P 值计算和统计推断的过程中只涉及零假设,他的分析逻辑是“从特殊到一般,从个体到整体”的推理方法,而且似乎认为 P 值是可以互相比较的, P 值越小证据越充分。

同期的另外两个著名统计学家Neyman和Pearson则提出与Fisher不同假设检验和统计推断的理论体系。就是在做假设检验时必须先做两种假设:零假设(H 0 ,无差异)和备择假设(H 1 ,有差异)。在做统计推断的过程中不是一味攻击H 0 ,而是在一定的容忍度(犯Ⅰ类错误概率)范围内做出抉择。这里提到的Ⅰ类错误就是我们常常说的α,Neyman和Pearson推荐用的α值也正巧是0.05。在他们这个理论体系里,提到了两种假设,其实就是我们做统计推断的两种可能的结论,无差异或者有差异。他们认为备择假设(H 1 ,有差异)应该是特殊情况,因此我们在进行统计推断的过程中要注意控制Ⅰ类错误(α值)的大小。同时也提到了Ⅱ类错误的概念。所谓的Ⅱ类错误就是β,也就是两组确实有差异,而我们通过样本的计算选择接受零假设所犯错误的概率。1-β则是零假设不成立,我们通过样本的计算选择拒绝零假设的概率,也就是我们常常说的“统计效能”(statistical power)。有趣的是,Neyman和Pearson的理论体系独独没有提到 P 值,也不做 P 值的计算,而是通过计算比较统计量和α对应统计量的大小。其计算过程是比较复杂的。

这三位当时最为著名的统计学家的争论持续了很久,还相互攻击。于是其他统计学家也没有法子了,在卫生统计应用时把这两个理论体系糅杂到一起,形成我们现在常用的假设检验和统计推断的理论体系。也就是通过Fisher的方法比较简单地把 P 值计算出来,再套到Neyman和Pearson体系中的两个假设的理论框架里,来做统计推断。 EktoGbkf1gPQqovsKHrXGuBjYix+LiNbsL/9CsX/9FbvECM7QJ2LaVhjc620cxfC

点击中间区域
呼出菜单
上一章
目录
下一章
×