统计学的世界（第8版）最新章节_戴维·穆尔著

第5章
好实验与坏实验

案例分析

媒体对于气候变化的报道似乎非常频繁。气候学家警告我们，未来几年将会出现巨大的变化。例如，科学家预言气候变化可能会给加州带来更多雨水，但是他们不知道增加的雨量会发生在冬天的雨季，还是春夏的旱季。现在是否有可能预测出未来气候变化可能产生的影响？

加州大学伯克利分校的实验人员做了一个实验，研究雨量增加产生的影响。他们随机选了三块草地做实验：第一块草地在1～3月（冬季）多洒相当于往年降雨量20%的水，给第二块草地在4～6月（春季）也多洒相当于往年降雨量20%的水，第三块草地的洒水量与往年的降水量一样。有共计70平方米的18个环形草块被用于这项实验，每6块对应上述三种不同处理方式中的一种。实验人员测量的一个变量是总植物量，用每平方米的克数表示，并将一年的数据绘制成图表。将三种处理方法各自所得的总植物量加以比较，以评估雨量增加产生的影响。

这是一个不错的实验吗？读完本章内容，你就可以了解这类实验的优缺点。

谈谈实验

观察研究是一种被动的数据搜集方式，实验人员只观察、记录或度量，但不进行干扰。而实验是一种能主动生产数据的方式，实验人员会把某种处理方式加诸实验对象，并观察实验对象有何反应。所有的实验和许多观察研究，其目的都是研究一个变量会对另一个变量产生何种影响。

以下是我们用来分辨哪个变量是影响者，哪个变量是被影响者的实验术语。

实验术语

反应变量（response variable）是指用来测量研究结果的变量。

解释变量（explanatory variable）是指可用于解释或引起反应变量变化的变量。

实验中所研究的个体，通常被称为实验对象（subject）。

处理方式（treatment）是指任何加诸实验对象的特定实验条件。若实验当中有数个解释变量，处理方式就是这些变量的值的组合。

例1 在线学习

一份乐观的网络学习报告介绍了位于佛罗里达州劳德代尔堡的诺瓦东南大学的一项研究成果。研究报告的作者声称，那些接受在线大学教育的学生与在线下课堂上的大学生的“学习效果是一样的”，而且用网络教学代替课堂教学可以帮大学节省成本，所以这项研究似乎倾向于鼓励人们转向网络教育。

在这项实验中，大学生是实验对象，解释变量是接受教育的方式（线下还是线上），反应变量是学生在课程结束后的考试成绩。这项实验也测量了其他变量，包括课程开始前的考试成绩。尽管实验人员没有将其作为一个解释变量，但实验对象对于课程资料的了解可能会影响到他们的考试成绩，而实验人员希望这个因素不会对实验结果产生影响。

例2 性教育的影响

是否应该在学校里对青少年进行性教育，多年来人们在此问题上有怎样的争议？宾夕法尼亚大学做了一项研究，跟踪了在美国东南部城市的4所中学就读的662名黑人青少年连续3年的行为。这些青少年被随机分配到4个不同的班级：一个班级讲授8个小时的安全性交知识；一个班级讲授20个小时的禁欲和节育知识；一个班级讲授8个小时鼓励禁欲的知识；一个班级只讲授其他健康知识，包括正确的饮食和锻炼。结果表明，讲授了8个小时鼓励禁欲知识的班级，在接下来24个月里发生性行为的比例最低。

宾夕法尼亚大学的这项研究是一个实验，实验对象是662名青少年。解释变量是青少年所接受的处理方式，该实验进行了4种处理方式的比较研究。它还测量了一些反应变量，其中主要的反应变量是实验对象报告的在24个月的跟踪期内发生性行为的情况。

你可以看到有很多人把解释变量称为“自变量”（independent variable），把反应变量称为“因变量”（dependent variable），这是因为反应变量取决于解释变量。我不大喜欢这些名称，一部分原因在于“independent”这个英语单词在统计学里有完全不同的意思。

坏实验

进行在线学习的学生，是不是和在课堂上学习同样课程的学生学得一样好？要知道这个问题的答案，最好的方法是让一些学生到教室上课，让一些学生在线学习。这就是一个实验。诺瓦东南大学没有做实验，因为它没有对学生采取任何处理方式，而由学生自行选择去教室上课还是在线学习。这项研究只度量了他们的学习成绩。选择在线学习的学生，原本就和选择到教室上课的学生不太一样。比如，在开始课程学习之前所做的关于课程内容的测试中，选择在线学习的学生的平均分数是40.70，而选择到教室上课的学生的平均分数是27.64。在前者的水平本就领先的情况下，很难评估课堂学习和线上学习的优劣。线上学习和教室学习的效果已经和一些潜在的背景因素无可救药地混杂在一起了，图5–1展示了这种混杂在一起的影响。

图5–1 诺瓦东南大学研究中存在的混杂状况

潜在变量

潜在变量（lurking variable）是指对研究中其他变量间的关系有重要影响，但却未被列为解释变量的变量。

当两个变量对反应变量的影响混杂在一起而无法区分时，我们称这两个变量是相互干扰的变量。相互干扰的变量可以是解释变量，也可以是潜在变量。

在诺瓦东南大学的研究中，学生原来的水平（潜在变量）就和解释变量产生了相互干扰。研究报告说两组学生的期末考试成绩一样好。我们没法判断，在线学习学生的成绩中有多少应归因于他们原来的水平。一开始时成绩领先的在线学习的学生，并没有比那些原本成绩平平的在教室学习的学生期末考试成绩更高，这好像不能算是在线学习有神奇效果的证据。下面是另一个例子，在这个例子中通过一项实验解决了相互干扰的问题。

例3 猪鞭虫疗法实验

克罗恩病是一种慢性肠炎。英国医学杂志《肠》报道过一项实验，声称含有数千猪鞭虫卵的饮料可有效缓解克罗恩病引发的腹部疼痛、出血和腹泻等症状。

在患者身上测试医疗效果的实验被称为“临床试验”（clinical trial）。实验人员建议采用含有猪鞭虫卵的饮料治疗克罗恩病患者的临床试验，具有“单轨设计”的特点，即只采用一种处理方式：

施加治疗→测量病人的反应

猪鞭虫→减少症状？

患者确实报告说症状减轻了，但是我们不能就此宣称这是猪鞭虫疗法的效果。因为这可能只是一种安慰剂效应。安慰剂是一种假的治疗方式，没有实质疗效。许多患者对任何治疗方式都会产生积极反应，其中也包括安慰剂。安慰剂是一种心理作用，基于患者对医生的信任和对治疗方式的期望。也许这可以用来解释为什么许多患者在无明显原因的情况下，症状也会缓解。上述实验采用了单轨设计，意味着安慰剂效应会和猪鞭虫饮料产生的效果相互干扰。

“史密斯先生，我想清楚地告诉你，我给你开的药，有助于缓解你的疲惫感。”

实验人员认识到了这一点，决定再做一个设计更严谨的实验。这个实验将克罗恩病患者分为两组。一组接受猪鞭虫饮料治疗，另一组则接受安慰剂治疗。两组实验对象都不知道自己接受的疗法是什么。负责记录患者反应的医生也不知道患者接受的是哪种治疗，所以他们做出的诊断也不会受到影响。这种试验对象和负责记录症状的医生都不知道详情的实验，被称为“双盲实验”（double-blind experiment）。

观察研究和单轨实验常常因为和潜在变量的相互干扰而产生无效数据。如果只进行观察，这种问题就很难避免。做实验，情况就会好得多，这从猪鞭虫疗法实验中可以看出来。在这个实验中，有一组只接受安慰剂疗法的实验对象，我们就可以比较猪鞭虫疗法的效果是否比安慰剂好。若结果是肯定的，那么它的效果就不只是安慰剂效应了。

随机比较实验

设计实验的第一个目标，就是确保实验可以显示出解释变量对反应变量的影响。单轨实验常常因为变量间的相互干扰问题而达不到这个目标，补救的方法是同时比较两种或多种处理方式。当相互干扰的变量同等程度地影响到实验对象时，接受不同处理方式的实验对象产生的不同反应，可以归因于处理方式而非相互干扰的变量。这就是实验人员在实验中使用安慰剂的初衷。所有实验对象都暴露在安慰剂效应下，接受了同样的处理。

例4 镰刀型细胞贫血症

镰刀型细胞贫血症是一种遗传性的红细胞异常疾病，在美国得这种病的大多数都是黑人。该病伴随着剧痛感和多种并发症。美国国立卫生研究院做了一项临床试验，用一种名叫“羟基脲”的药治疗镰刀型细胞贫血症。实验对象是299名成年人，这些人在过去3年中曾因镰刀型细胞贫血症至少有过3次疼痛难忍的经历。剧痛的定义，是因为疼痛难忍而求医且治疗时间超过4个小时，治疗时间包括在医疗机构挂号之后所花费的全部时间，包括等待看医生的时间。

如果只是把羟基脲给所有299名实验对象服用，就会把药效、安慰剂效应以及其他潜在变量的效应（例如知道自己是实验对象所产生的效应）全部混杂在一起。所以，实验人员给一半实验对象服用了羟基脲，其余患者服用的是外观和口感都很像羟基脲的安慰剂。除了服用的药不同，其他治疗过程（比如检查的时间表）完全一样。因此，潜在变量会对两组实验对象产生同样的影响，在反应上不会造成差别。

两组实验对象在服药之前各方面的条件都应该相近，就像抽样调查一样，在选择那些服用羟基脲的实验对象时，最好的避免偏差的方法就是采用随机分配的方法。我们从所有实验对象中选出大小为152的简单随机样本组成羟基脲组，剩下147名实验对象组成安慰剂组。图5–2是该项实验的设计示意图。

图5–2 羟基脲和安慰剂疗效的随机比较实验设计示意图

这项实验比预计的时间提早结束了，因为羟基脲组的剧痛发作次数比安慰剂组明显减少很多，这是足以让人信服的证据，证实羟基脲是镰刀型细胞贫血症的有效疗法。对遭受该病折磨的患者来说，这真是一个好消息。

图5–2展示的是最简单的“随机比较实验”（randomized comparative experiment），实验只比较了两种处理方式的效果。图中描述了实验设计中的重要信息：随机分配，一种处理方式对应一组人，每组人数（最好让各组人数接近），每组分配到的处理方式，以及我们要比较的反应变量。用随机抽样的方式分组使用了我们在第2章中介绍的方法：先给299个实验对象编码001～299，然后从随机数字表（表A）的任意一行开始读取三个一组的数字，直到选出152位实验对象组成羟基脲组。剩下的147位实验对象就是安慰剂组。

例4中的安慰剂组又被称为“控制组”（control group），通过对实验组和控制组的比较，实验人员能够控制潜在变量的影响。控制组不一定都要接受像安慰剂那样的假治疗，临床试验常常用的也不是安慰剂，而是把新的治疗方法和既有的治疗方法进行比较。随机分配接受既有疗法的病人，就构成了控制组。如果要比较的处理方式超过两种，那么我们可以将所有实验对象随机分配到不同的组中去，组数和处理方式数相同。

例5 节约能源

很多公共事业单位都有鼓励顾客节约能源的方案。一家电力公司考虑在住户家中安装一种电表，这种电表可以显示按照近期的用电量计算，整个月的电费预计是多少。这种电表会促使住户减少用电量吗？还有其他可行的方法吗？这家公司决定设计一个实验。

有一种更省钱的方法，就是给住户一张图表和如何监控用电量的信息。这个实验要把这两种方法（电表和图表）和控制组进行对比。控制组的住户会得到有关节约能源的信息，但这些信息对于减少用电量没有任何帮助。反应变量是全年的用电量。该公司在同一个城市里找到60个愿意参加实验的住户，可以随机分配20个住户对应任何一种处理方式。图5–3是该实验设计的示意图。

图5–3 住户节约用电计划的3种方法的随机比较实验设计示意图

为了进行随机分配，我们给60个住户从01到60编号，然后从表A中随机选出20个住户使用电表，20个住户使用图表，剩下的20个住户作为控制组。

练习

5.1 定期锻炼和心脏病。定期锻炼可以减少心脏病发作的风险吗？为了回答这个问题，一位实验人员找到4000名40岁以上、没有心脏病史且愿意参与实验的人。她随机分配2000人定期参加有人督导的锻炼，另外2000人仍按照既有的习惯生活。这位实验人员对这两组人进行了为期5年的跟踪研究。用像图5–2和图5–3的方法画出这项实验的设计示意图。

实验设计的逻辑

随机比较实验是统计学中最重要的概念之一，它的设计旨在让我们能够得到关于明确的因果关系的结论。随机比较实验的设计逻辑是：

• 用随机抽样的方法对实验对象进行分组，各组在各方面应该都相似。

• 用“比较”环节的设计来确保除了实验中的处理方式外，其他所有因素对所有组的作用都相同。

• 反应变量的差异必是处理方式的效应所致。

我们用随机抽样的方法分组，以避免系统性偏差。例如，在镰刀型细胞贫血症的研究中，医生有可能会下意识地把最严重的病人分到羟基脲组，期望新药能对他们有所帮助。这样一来，就会使实验结果产生偏差。从实验对象中抽取简单随机样本作为第一组，会使得每个实验对象被选入第一组或第二组的概率相等。我们可以预期两组在各方面都很接近，例如年龄、病情严重程度、抽不抽烟，等等。

如果不采用随机分配的方法，潜在变量的影响会是怎样呢？例如，安慰剂效应就是这样的潜在变量，这种效应只在这种疗法被用在实验对象身上之后才会发生。如果各个组在一年中的不同时间接受治疗，那么有的组会在流感高发季节接受治疗，而有的组则不是，那么流感就是一个潜在变量。在随机比较实验的设计中，我们努力使这些潜在变量对于所有组的作用都是相似的。比如，力争使他们同样暴露在安慰剂效应的影响下，或者所有组在同一时间段内接受治疗，同样暴露在流感的风险中。

如果我们告诉你医学研究者对于随机比较实验接受得很慢，应该不会让你感到惊讶，因为许多医生认为一项新疗法对病人是否有用，他们“只要看看”就会知道。但事实并非如此。有很多医疗方法只经过单轨实验后就被普遍采用，但后来有人起疑，在进行了随机比较实验后，却发觉其效用充其量就是安慰剂。这种例子不胜枚举。在医学文献里我们可以找到经过适当的随机比较实验检验过的疗法，以及经过“历史对照组”（historical control）实验检验过的疗法。历史对照组实验不是把新疗法的效果和控制组做比较，而是和过去类似的病人在治疗后的效果做比较。在被纳入实验的56种新疗法当中，用历史对照组实验来检验时，有44种被证明有效。然而，在经过适当的随机比较实验的检验后，只有10种被证明有效。目前，法律明文规定，任何新药都必须用随机比较实验来证明其安全性和有效性。但是对于其他治疗方法，比如手术，则没有这类法律条文。在谷歌上搜索“历史对照组实验”可以找到近期采用了历史对照实验检验法的其他疗法。

我们必须注意的是，和随机抽样一样，随机比较实验也要遵守“机会法则”（law of chance）。就像抽取一个选民的简单随机样本时，有可能运气不好，抽到的人几乎都来自同一党派；随机分配实验对象时，也可能运气不好，把抽烟的人几乎全放在一组。我们知道，如果抽取很大的随机样本，样本的组成和总体相近的概率就会很大。同理，如果我们找来很多实验对象，利用随机抽样方法分组，就有可能与实际的组成情况类似。实验对象较多，实验组的“机会变异性”（chance variation）就比较小，实验结果的机会变异性也会比较小。“用足够多的实验对象”、“同时比较多种处理方式”、“随机化”，同为统计实验设计的基本原则。

统计实验设计的原则

统计实验设计的基本原则如下：

• 要控制潜在变量对反应变量的影响，最简单的方法就是同时比较至少两种处理方式。

• 随机化：用随机抽样的方法把实验对象分配成不同的组。

• 每组的实验对象要足够多，以降低实验结果的机会变异性。

统计学显著性

机会变异性的存在促使我们更仔细地了解随机比较实验的设计逻辑。我们不能够轻易地下结论，只要羟基脲组和控制组的患者剧痛发作的次数有差别，就一定是因为羟基脲的疗效。就算两组用完全相同的疗法，机会差异性仍会存在，随机只能消除组与组之间的系统差异。

统计学显著性

我们观察到的效果如果大到某种程度，光靠机会产生这种结果的概率很小时，我们就称此结果具有统计学显著性（statistical significance）。

羟基脲组和控制组的剧痛发作的平均次数之间的差别具有“高度的统计学显著性”（highly statistically significance），这意味着这种差别几乎不可能全是由机会性因素造成的。而且，我们的确有强有力的证据证明羟基脲对镰刀型细胞贫血症患者的疗效胜过安慰剂。在很多不同研究领域的调查报告中，你都会看到“具有统计学显著性”这个说法。这是在告诉你，对于想要证明的结果，调查人员已经找到好的统计学证据了。

当然，实验的实际结果比起统计学显著性更重要。在镰刀型细胞贫血症的实验当中，实验组在一年时间里剧痛发作的平均次数是2.5次，而控制组是4.5次。这么大的差距，对患者来说是很重要的结果。如果只是2.5和2.8的差别，那么即便具有统计学显著性，这个结果也没什么意义。

造成多大的影响才会被视为具有统计学显著性，这取决于有多少实验对象。如果实验对象的数量很大，即便是一个比较小的、可能被视为不重要的结果，也可能具有统计学显著性。所以，在镰刀型细胞贫血症的实验中，每年平均2.51次剧痛与每年平均2.50次剧痛相比，也可以具有统计学显著性，如果实验对象的数量足够大。如果实验对象人数很少，有可能观察到的较大影响只具有偶然性，我们将在本书的第三部分和第五部分充分讨论这个问题。

所以在评估统计学显著性时，了解实验对象的数量也是有必要的。也许对于统计学显著性来说，一个更好的术语可能是“统计上不相似”（statistiacally dissimilar）。

好的观察研究

按时去教堂会延长人的寿命吗？医生在治疗心脏病时，会歧视女性患者吗？一边开车一边打手机，会增加出车祸的概率吗？这些都是因果问题（cause-and-effect question），应该用随机比较实验来检验。可是，很遗憾，我们不能随机安排某些人去教堂，因为是否参加宗教活动是个人信仰问题；我们也不能用随机数字表，随机指定心脏病患者是男性或女性；而要求驾驶员一边开车一边打手机，也是我们不愿意做的事情，因为边开车边打电话可能很危险。

对于以上这些问题，以及许多其他的因果问题，我们能得到的最好数据，都来自观察研究。我们知道观察研究是仅次于实验的第二选择，虽然其所得结果比实验弱得多，但好的观察研究还是非常有价值的。那么，什么样的观察研究才算好的呢？

首先，好的研究不管是不是实验，都一定要是对比研究。我们可以分别从固定做礼拜的人和非固定做礼拜的人中抽取随机样本做比较，可以比较医生如何治疗男性心脏病患者和女性心脏病患者，也可以比较同一个人在开车过程中打手机和不打手机时的风险情况。我们可以同时运用比较和“配对”（matching）的方法来建立一个控制组。为了了解怀孕期间服用止痛药的影响，我们比较研究了妊娠期服用止痛药和未服用止痛药的女性。我们从未服药的许多怀孕女性中选出一些人，她们在年龄、教育背景、生育子女数以及其他潜在变量方面，都和孕期服用了止痛药的那组女性很接近。这样我们就有了两组女性，她们在所有潜在变量方面都相似，所以这些潜在变量应该不会影响我们的研究结果。尽管如此，还会存在我们无法观察或考虑不到的其他潜在变量，它们会影响研究结果。

配对并不能消除变量间交叉干扰的问题。按时去教堂或犹太教堂或清真寺参加宗教活动的人，比不去的人更会照顾自己。他们当中较少人抽烟，较多人运动，超重的人也比较少。配对可以缩小某些差距，但不是所有差距。如果去教堂的人和不去教堂的人去世时的年龄做比较，就会把宗教信仰的影响和良好生活习惯的影响混杂在一起。所以，好的比较研究，必须能够测量和调整那些“交叉干扰变量”（confounding variable）的影响。如果我们测量体重、抽烟习惯、运动习惯，就可以用统计技巧来减少这些变量对人的寿命的影响，而只剩下宗教信仰的影响。

例6 宗教活动与人的寿命

关于按时参与宗教活动的效果的一个好的研究，选取了一个包含3617名成年人的随机样本。除了解释变量（宗教活动）和反应变量（寿命长短）之外，研究者还测量了很多其他变量。一篇新闻报道说：

在去教堂参加活动的人中，有较大比例的人不抽烟、经常做运动，而且体重适中。不过，即使考虑到健康习惯，未定期参加宗教活动的人，死亡概率还是多出了25%。

所谓“考虑到”的意思是，最后的研究结果根据两组的差异做出了调整。该调整降低了宗教活动的影响，但它仍然对结果有重要影响。

例7 心脏病治疗中存在性别歧视吗？

医生在治疗心脏病时，对于有相似症状的女性患者，所用方法不像男性患者那样激进。这是不是表明医生有性别歧视的倾向？未必如此。女性通常比男性患心脏病的时间晚，女性心脏病患者的年龄一般较大，而且还有其他健康问题。这也许可以解释为何医生在为她们治疗时更加谨慎。

这种情况需要做一次比较研究，对交叉干扰变量的影响进行统计调整。类似的研究已经有很多人做过了，结果却相互矛盾。用医生的话说，有的结果是“当男性患者和女性患者除了性别以外的其他变量都相似时，治疗方法是很接近的”。而其他研究结果则发现，即使对男女患者的性别的影响进行调整之后，女性患者接受的治疗还是比较保守。

从例7可以看出，统计调整是很微妙的。随机分配实验对象可以建立起在所有已知或未知变量方面都接近的组，而配对和调整对研究中未考虑要度量的变量，并不起作用。即使你相信研究者什么都考虑到了，还是要对统计调整存疑。在决定调整哪些变量时，有很大的作弊空间。而且，“经过调整”的结论，实际上等于在说：

如果女性心脏病患者的年纪轻些、身体健康些，而男性心脏病患者年纪大些，健康状况差些，两种性别的患者就会得到差不多的治疗。

也许这已经做到最好了，而且我们应该感谢统计学。不过，这让我们更喜欢能得出清清楚楚的结果的好实验了。

小结

本章要点

• 统计研究常常试图找到证据，证明当改变某个变量（解释变量）的时候，会使另一个变量（反应变量）产生变化。

• 在实验当中，我们会自己设定解释变量，而不是只观察它们。

• 观察研究和只采取一种处理方式的单轨实验，因为解释变量和潜在变量之间存在交叉干扰的问题，所以我们不可能确定处理方式的效果到底是什么。

• 在随机比较实验中，我们比较两种或多种处理方式，随机分配哪些实验对象对应哪种处理方式，并且使用足够多的实验对象，以减小机会变异性的影响。

• 比较两种或多种处理方式，可以控制像安慰剂效应等潜在变量，因为潜在变量对每个组都起到同样的作用。

• 不同的处理方式所产生的效果之间的差距，若大到几乎不可能仅因为机会变异性的影响而产生时，就被称为具有统计学显著性。

• 对于因果问题所做的观察研究，如果能比较相似的组，尽量多地衡量潜在变量并做出统计调整，结果就会比较可信。

在第1章，我们了解到实验最适合得出由一种处理方式导致结果产生变化的结论。在这一章里，我们了解到只有设计出好的实验，特别是随机比较实验，才能为获得这类结论奠定坚实的基础。实验结果的统计学显著性，是证明解释变量有效的最好证据。

当无法做实验时，尽可能测量多个潜在变量和对效果进行统计调整的观察研究，有时可被用于解答因果问题。尽管如此，它们仍比不上好实验，属于次优选择。

案例分析与评估

用本章所学知识分析和评估本章开头的案例，回答以下问题。

这项研究的结果是：一个季度之后，春天多浇了水的草地的总植物量是其他草地的大约两倍。因此，这个实验结果具有统计学显著性。

• 这是实验还是观察研究？

• 解释“统计学显著性”的意思。

• 随机分配的草块采用不同的处理方式有何优点？

练习

5.1 见本书第106页。

5.2 过度劳累对心脏不利。一篇新闻报道称，住在距离高速公路100米范围内的人的动脉血管壁增厚的速度要比一般人快两倍以上。实验人员用超声波测量了住在洛杉矶地区高速公路附近的1483名居民的颈动脉壁的厚度。结果发现，那些住在距离高速公路100米范围内的人的颈动脉壁的厚度在连续三年的跟踪研究中，每年增加5.5微米（大约是一根头发直径的1/20），是住在其他区域的实验对象颈动脉壁增厚速度的两倍以上。

（a）解释变量和反应变量分别是什么？

（b）仔细说明为何这项研究不是实验。

（c）说明为什么交叉干扰变量会阻碍我们得出“住在高速公路附近对你的心脏不好，因为它能增加你的颈动脉壁增厚的速度”的结论。

5.3 美国学术能力评估测试的数学平均分下降。一篇《纽约时报》的文章称，2007年美国学术能力评估测试的数学平均分比2006年下降了三分。美国大学委员会（管理学术能力评估测试的一个非营利性组织）的官员认为，参与学术能力评估测试的人数增多导致数学平均分被拉低。“参加考试的人数越来越多，明显拉低了分数。”美国大学委员会主席加斯滕·凯珀顿这样说道。这是实验的结论吗？理由是什么？解释变量和反应变量分别是什么？

5.4 减肥手术和更长的寿命。《华盛顿邮报》的一篇文章称，根据两项大型研究的结果，特别肥胖的人如果接受减肥手术，过早死亡的概率会明显减小。但是，人们可以自主选择是否做减肥手术。解释为何这个有关因果问题的研究结论不可靠。用潜在变量与交叉干扰变量加以说明，并画出一个像图5–1那样的图。

5.5 肥胖会传染吗？一项研究在32年（1971～2003年）里跟踪研究了一个包含12067人的大型社会网络。实验人员发现，如果一个人变胖了，其亲朋好友也会长胖。于是，这些实验人员声称肥胖也像病毒一样，会在人与人之间传染。

请说明为什么一个人的体重增加了，其亲朋好友的体重也会增加，这并不意味着两者之间具有因果关系。指出有哪些潜在变量会对体重增加产生影响，并且会和亲朋好友的体重增加的效果发生交叉干扰。画一个类似图5–1的图来展示你的解释。

5.6 阿司匹林和心脏病。服用阿司匹林可以预防心脏病发作吗“医生健康研究”这项有22000名男医生参与的大规模医学实验，就试图回答这个问题。包含大约11000名医生的实验组每隔一天服用一片阿司匹林，剩下的一组人服用安慰剂。数年之后，该研究发现，阿司匹林组的心脏病发作次数明显比安慰剂组少。

（a）指出实验对象、解释变量、反应变量各是什么。

（b）用图表来展示“医生健康研究”的实验设计。（要展示一项实验的设计时，必须把各个组的大小和反应变量都标示出来。图5–2和图5–3可当作范本。）

（c）你怎样理解“心脏病发作次数明显比安慰剂组少”中的“明显”二字？

5.7 计算机模拟教学。在学习科学概念时，计算机模拟是否和直接观察同样有效？要是这样的话，在科学课上，计算机模拟会比直接观察节约更多时间。两所大学的实验人员打算研究这个问题，他们从两所大学的天文学专业中各选了20名学生，其中一半人通过计算机模拟学习月相，另一半人直接观察月亮。然后，评估每名学生对于月相的理解情况。为了简便起见，实验人员决定让一个大学的学生通过计算机模拟学习月相，另一个大学的学生直接观察月亮。为什么这不是一个好主意？

5.8 邻居对孩子分数的影响。为了研究邻居对孩子学业的影响，实验人员给1000个住户发放了住房补贴，促使他们搬离低收入社区。搬迁一年后，这些住户的孩子的学业成绩并没有改善。

请清楚地解释为何一年后孩子的学业成绩没有明显改善并不意味着邻居不会影响到孩子的学业，并指出会影响孩子学业成绩，并会和邻居的影响产生交叉干扰的一些潜在变量，用一个像图5–1那样的图进行辅助说明。

5.9 再看计算机模拟教学。

（a）请做出一个比练习5.7中更好的实验设计，再比较学生用两种不同方法学习月相的效果。（描述一项实验设计时，一定要明确标出各个组的大小和反应变量。可以用图5–2和图5–3当作范本。）

（b）使用表A，从第119行开始，执行你的设计中必不可少的随机化步骤。

5.10 在线学习。前文中指出，诺瓦东南大学的研究无法对线上学习和课堂学习哪种效果较佳，得出什么有效的结论，因为选择线上学习的学生原本水平就较高。请说明如何设计一个好的实验以获得更有用的信息。

5.11 服用抗氧化剂可以预防癌症吗？吃水果和蔬菜多的人比吃得少的人患结肠癌的概率低。水果和蔬菜富含像维生素A、C与E等“抗氧化剂”，服用抗氧化剂能预防结肠癌吗？一项临床试验选了864位结肠癌患病风险高的人来研究这个问题。实验对象被分成了4组：一组每天服用β胡萝卜素，一组每天服用维生素C与E，一组每天服用维生素A、C与E，一组每天服用安慰剂。经过4年的跟踪研究，实验人员非常意外地发现，4组的结肠癌患病率的差别居然不具有统计学显著性。

（a）这项实验的解释变量和反应变量是什么？

（b）描述这项实验的设计。（用图5–2和图5–3当作范本。）

（c）给864位实验对象编号，并从表A的第118行开始，选出β胡萝卜素组的前5个实验对象。

（d）用“不具有统计学显著性”来描述研究结果，是什么意思？

（e）想想看有哪些潜在变量可能可以解释，为什么吃很多水果和蔬菜的人的患结肠癌的概率较低。这项实验结果表明，可能是这些潜在变量而不是抗氧化剂，才是我们吃水果和蔬菜的好处背后真正的原因。

5.12 节约用电。例5中的实验旨在解释给一些住户提供电表或者图表，是否能够减少用电量。电力公司的一位主管反对在实验中设置一个控制组，他的理由是：“比较去年（那时还没提供电表或图表）和今年同期的用电量，花费会比较少。如果今年住户的用电量较少，就表明电表或图表有用。”清楚说明为什么这个实验的设计要比例5的设计差。

5.13 改善公立学校教学质量的计划。美国国家科学基金会出钱资助了一项名叫“系统行动”的计划，旨在协助各城市改革公立教育系统，进而改善学生的学习状况。这项计划有效吗？芝加哥的行动重点在于改进高中数学的教学质量。计划实施两年以后，在该市60所中学中，有51所的学生的数学标准测验的平均分比以前提高了。美国国家科学基金会认为这就是该项计划成功的证明。但评论员说，这样的结果并不能证明“系统行动”计划的效果。评论员是对的吗？请解释。

5.14 台锯刀片。一家台锯刀片制造商想知道较窄的刀片在切割很硬的木头时是否留下的焦黑印记较少，例如枫木。为了回答这个问题，工程师准备了20块厚度为1英寸的枫木板，其中10块用新的窄刀片切割，另外10块用常规刀片切割。所有切割都按照同样的进料速度（木板被送进台锯刀口的速度）进行，然后评估焦黑程度（用1～10分评估，10表示焦黑程度最严重）。

（a）在此实验中研究的个体不是人，而是什么？

（b）解释变量是什么，有哪些可能的值？

（c）反应变量是什么？

5.15 减少医疗支出。如果健康保险公司要求投保者负担部分医疗费用，是不是大家会减少医疗支出呢？一项关于这个主题的实验，旨在了解健康保险负担的医疗费用比例对于人们的看病次数或者健康状况会不会产生影响。此实验中的处理方式是4种健康保险计划。当医疗费用超过某个上限时，4种计划都会全额支付超出上限的部分。在上限之下，4种计划分别负担支出的100%、75%、50%与0。

（a）描述这项随机比较实验的设计。

（b）思考一下这样的实验可能会遇到的实际问题和伦理问题。

5.16 再看台锯刀片。再考虑一下练习5.14中的台锯刀片实验。

（a）画图说明这个随机比较实验的设计。

（b）从表A的第120行开始，执行设计中的随机化步骤。

5.17 如何处理酒后驾驶行为。一旦有人被认定为酒后驾驶，由法庭判决的处理方式或处罚的目的之一，是避免同样的情况再次发生。向法院建议三种可行的处理方式，然后大致描述一项可以比较三种处理方式有效性的实验设计，别忘了列出你要度量哪些反应变量。

5.18 统计学显著性。某项随机比较实验的目的，是要检验如果在心衰患者的日常护理中增加有氧训练，是否会比日常护理更能有效地改善患者的健康状况。研究者得出了结论：与日常护理相比，增加了有氧运动的患者自己报告的身体状况虽然只有微小的改善，但具有统计学显著性。向不了解统计学的患者解释一下这个实验结论中的“统计学显著性”是什么意思。

5.19 统计学显著性。美国国会在2002年通过了“不让一个孩子掉队”的法案之后，又做了一项研究，评估2004～2005学年全美132所学校的9424名学生使用15款阅读和数学软件的情况。这是用标准考试成绩来比较学生有无使用技术手段辅助学习的最大一项研究，结果表明在这两类学生之间未发现具备统计学显著性的差异。请用平实易懂的语言解释“未发现具有统计学显著性的差异”是什么意思。

5.20 二甲金刚胺和阿尔茨海默症。有些医学研究者怀疑二甲金刚胺可以提高中度与重度阿尔茨海默症患者的认知水平。你找到了50个患有中度和重度阿尔茨海默症的患者作为实验对象。

阿布莱特韩刘易斯萨马拉汤金斯

阿斯米德何泰德李桑德斯唐森

阿施罗胡林施耐德图尔克门

白约赛马戴尼史密斯王

拜尔荣格马丁史塔格纳维斯拉

彼勒卡拉夫派顿史泰特勒威廉斯

陈考斯特本赛尼克谭维纳

克利彻乐兰德格拉夫鲍威尔唐庸茨

戴维斯拉斯罗普任托马斯羽洛维奇

多布梅尔乐福莱罗德里格斯特门斯坦张

（a）大致描述一个合适的实验设计，不要忘记把安慰剂效应考虑进去。

（b）实验对象名单如上。如果你有统计软件，可以用其执行设计中的随机化步骤。或者利用表A，从第131行开始，执行设计中的随机化步骤，选出哪些人服用药物。

5.21 治疗前列腺疾病。一项大型研究使用加拿大全国医疗系统的记录，比较前列腺疾病的两种治疗方法。其中一种是传统的手术治疗，另一种是不用做手术的新疗法。记录中有许多病人的资料，这些病人的医生有些选择手术治疗，有些选择新疗法。研究显示，采用新疗法治疗的病人在8年之内的死亡率明显比手术组高。

（a）进一步查看这些研究资料后发现，上面的结论是错误的。采用新疗法的病人多出来的死亡率，可以用潜在变量解释。你认为什么潜在变量可能会和医生是否选择手术治疗产生交叉干扰？

（b）有300位前列腺病患者愿意充当实验对象，用图来展示这个随机比较实验的设计。

5.22 祷告和冥想。你在一份杂志里读到“像冥想或者祷告这类不具体的治疗方式，已经由有控制的科学研究（controlled scientific studies）证实，对于诸如高血压、失眠、溃疡与哮喘等疾病有疗效”。用简单的语言解释文章中的“有控制的科学研究”是什么意思，为什么这样的研究可能会得出“冥想和祷告对某些疾病有疗效”的结论。

5.23 运动和骨质疏松症。定期运动的习惯有助于降低绝经后的妇女患骨质疏松症的风险吗？以下是两个研究这一问题的方法，请详细说明为什么第二种方法可以产生比较有价值的信息。

1.一位研究者找到1000位绝经后有定期运动习惯的女性，她给其中每一位配对一位各方面条件与前者类似，可是没有定期运动习惯的绝经后女性，然后跟踪研究两组人长达5年。

2.另一位研究者找到2000位愿意参与研究的绝经后女性，她随机分配其中1000位参加有人指导的定期运动计划，其他1000位保持原来的生活习惯。研究者追踪研究两组人长达5年。

5.24 麻醉剂的安全性。使用不同麻醉剂的手术患者，死亡率不同。有一项观察研究得出4种麻醉剂的死亡率如下：

麻醉剂氟烷喷妥撒环丙烷乙醚

死亡率 1.7% 1.7% 3.4% 1.9%

这并不足以证明使用环丙烷比使用其他麻醉剂危险。找出有哪些潜在变量可能和手术时麻醉剂的选择发生交叉干扰，从而可以解释不同的死亡率。

5.25 随机化的执行。为了证明随机化可以减少交叉干扰的问题，考虑以下情况。一位营养师通过实验，试图比较早产婴儿喂食A配方或B配方后体重增加的情况。她会用每种配方喂10个其父母自愿报名参加实验的早产儿，她的实验对象是10个早产男婴和10个早产女婴。该研究者认为男婴可能对A配方有较强偏好，如果所有男婴都喂食A配方，实验结果会有偏差，对配方A更有利。

（a）给婴儿编号00、01…19，用表A随机抽出10个婴儿喂食A配方。一共执行4次该操作，每次用表A的不同行，并写下被分配到A配方的4个组的成员代码。

（b）婴儿代码为10、11、12、13、14、15、16、17、18和19的是10个男婴。刚才产生的4个A配方组中，每组各有几个婴儿？被随机分配喂食A配方的男婴每组平均有几个？

5.26 网上练习。浏览《新英格兰医学杂志》网站（http://content.nejm.org），找到Volpp等人写的文章“戒烟的财务动机的受控实验”（2009年2月12日刊）。这是一个比较实验吗？是否采用了随机分配的方法？有多少实验对象参与？结果是否具有统计学显著性？（如果你们单位没有订阅这本杂志，你可以在www.ncbi.nlm.nih.gov/pubmed/19213683.上找到摘要。）

你可以找到《美国医学协会杂志》（www.jama.ama-assn.org）和《新英格兰医学杂志》的最新研究。许多文章都讲到了随机对比实验，也有很多文章提到了统计学显著性。

第5章 好实验与坏实验

第5章
好实验与坏实验