我们为什么会变老：写给大家的科学抗衰老指南最新章节_贝丝·贝内特著

统计显著性的意义

大型人类观察性研究的另一个案例是妇女健康倡议（the Women's Health Initiative, WHI），该研究始于1991年，旨在研究绝经后女性的重大健康问题。她们的健康问题（如癌症、心脏病等）与激素替代疗法（hormone replacement therapy, HRT）和其他干预措施（钙、维生素D、低脂饮食）相关联。在过去的16年里，这项研究招募了超过16万名“健康”的绝经后女性，其得出的一个惊人的结论是，激素替代疗法显著增加了患心脏病、脑卒中和乳腺癌的风险。 ^[8]

对这里的“显著”一词，你我的理解可能会有很大不同。设计统计分析的目的是确定对照组（不服用药物或实施其他治疗）和治疗组（服用药物或实施治疗）之间的差异不是偶然的。传统上，确定一种治疗方法与对照组相比有实际效果的显著性分界线是5%或更低。换句话说就是，如果你多次重复这个实验，你发现治疗组和对照组有相同结果的比例低于5%。科学家并不总是使用5%这个分界线；事实上，围绕是否要依赖某个稍显武断的分界线，目前也正引发着激烈的争论。也就是说，5%的水平只是一个大致标准。

不妨把一个实验想象成掷硬币，当你连续多次掷出硬币，你的期望是50%的正面朝上和50%的反面朝上，但你可能会在得到一个反面朝上之前，竟一连掷出了50个正面朝上。你当然知道这是一个罕见的结果，直觉上也意识到这只是侥幸而已，但对于什么样的实验结果就等同于一个罕见结果，你却没有相同的直觉预期。

这时就需要一系列统计分析工具。在统计分析的世界里，样本中的个体越多，统计学检验在确定偶然结果方面就越有力。但另一方面，当研究中纳入了很多对象时，即使是对照组和治疗组之间的一个微小差异也会成为统计上显著的结果。或者说，如果你掷足够多次的硬币，你甚至可以判定：49%的正面朝上和51%的反面朝上也是个偶然结果。

在WHI中，这意味着与不接受激素疗法的对照组相比，每增加1万名接受激素疗法的女性就会增加7例心脏病发作、8例脑卒中、8例乳腺癌患者，但会减少6例结直肠癌和5例髋部骨折患者。这些数字在统计学上差异显著，因为研究中包含的女性数量极大，尽管我对这些结果的解释有所怀疑。换句话说，每1万人中增加7人心脏病发作，这有多重要？特别是如果服用激素真的可以减少髋部骨折，这当中的利弊得失又该怎么算呢？激素疗法可能还有其他益处，其中一些将在后面的章节中谈到，但WHI的设计和解读主要着眼于其风险。

最后一点，大型观察性研究，如WHI或弗雷明汉心脏研究所得到的，是大量的变量评估。例如，在WHI中，科学家们关注了众多健康问题；弗雷明汉的研究则对数百种可能导致冠心病的因素进行了评分。我们仅凭直觉就可发现一个问题：如何预先知道哪些变量是重要的呢？但从统计学的角度来看，每当你想要从数据中找出另一个问题的答案时，相应地就会失去部分数据解答当前问题的能力。一个非常粗略的比喻就是想要弄清楚一副牌中有多少种花色，可以通过发出大量每次两张的手牌组合找出答案；但如果把好几副有不同数量花色的牌混在一起，就无法只用以上发两张手牌的方法得到可靠的答案了。