运动人体科学研究中的数据处理与分析最新章节_崔玉鹏著

3 实践中的实验

概率样本是重要的统计思想，但是它们并不能解决实践中抽样的所有问题。随机对照实验研究也是重要的统计思想，但是它不能够解决实验的所有问题。一位抽样者必须准确地知道其抽样必需的信息，并且通过编写有关问题来统计思想获取这些信息。而一个实验组织者也必须准确地知道实验需用到的处理方法和要取得的应答效果，同时还必须构建应用于处理或者治疗方法过程的和检测应答效果的仪器装置。这些内容就是心理学家们、医药研究人员或者工程师们谈论“设计一个实验”的过程。这里我们所关心的是实验设计过程中的统计学问题，也就是那些适用于心理学、医疗、工程学以及其他领域的统计学思想。即使是在一般性的水平上，仍然应该明白许多实际操作中的问题可能会阻止一个实验得出有用的数据资料。

隐藏的偏性

一个随机对照实验研究的逻辑思想是假设用相同的方法对待所有的受试者，除了实验设计中要进行对比的处理方法之外，任何其他不平等的处理方法都可能会导致偏性的发生。

例8 双盲实验设计。 在一项医药实验研究中的受试者并没有被告知他们所吃的是一种标准的治疗药物，是一种新药还是一种安慰剂。假如他们知道了自己吃的“只是一种安慰剂”，这将毫无疑问会降低他们对治疗成功的希望，并使实验结果偏向于有利于其他的治疗方法。如果医生们或者其他的医疗人员知道了一位受试者吃的“只是一种安慰剂”，那么他们对这位受试者治疗成功的希望也比他们知道这位受试者吃的是某种特效的实验药物的情况低。医生们的希望将能够下意识地改变医生与病人相互作用的方式，甚至会改变他们对病人状况的诊断方式。在一个双盲实验中，所有的受试者和所有参加实验工作的每一个人都不知道每一位受试者所接受的治疗方法。一直到实验结束，并且所有的结果出来之后，只有这项研究的统计人员确切地知道具体情况。

例9 实验室大鼠和兔子。 经过特殊的繁育过程，遗传特性保持一致的大鼠和兔子是许多实验的研究对象。研究表明，这些动物会像人一样，其被处理的方法很重要，会为一些隐藏的偏性创造机会。

一项对一种新的早餐麦片粥营养价值的研究对比了用这种新产品饲养幼鼠的体重增长和用一种标准饲料喂养幼鼠的体重增长。这些幼鼠被随机分配到不同的饮食组中，并且被放在大的支架上的笼子里饲养。结果发现，位于支架上部笼子里的幼鼠比位于支架底部笼子里的幼鼠生长得快一些。如果实验组织者将用新谷类产品饲养的大鼠放在了支架的顶部，而将用标准饲料喂养的大鼠放在了支架的底部，那么这个实验的结果将偏向于有利于这种新产品的方向。其解决的办法是：将各个组的幼鼠随机地分配到各个幼鼠笼子里。

另外一项研究观察了人类的爱抚对兔子血液胆固醇水平的影响。所有的兔子受试对象吃相同的饲料。一些兔子（随机选择）被规律地从它们的笼子中取出，并被人们友好地在它们的毛皮覆盖的头上挠刷。那些接受人们爱抚的兔子有较低的血液胆固醇水平。所以，对一些兔子的爱抚，但没有爱抚其他兔子的做法将导致一个选择了兔子血液胆固醇水平作为一个应变量的实验发生偏性。

拒绝、不坚持和中途退出

在样本调查中，会遇到无法与一些被选择为样本的人取得联系以及其他一些人拒绝参与调查的情况。以人为研究对象的实验将会碰到这些问题。

例10 医疗实验中的少数民族。 在对一些重大疾病，如癌症的治疗实验中，拒绝参加是一个非常严重的问题。就如同抽样过程一样，如果那些拒绝参加实验的人有系统地与那些积极合作的人存在差异，将会导致实验研究出现偏性。美国《纽约时报》中的一篇文章说：

病人们通常不愿意充当“人类实验动物荷兰猪”，即使他们可能会从这项研究中受益。许多病人害怕自己被随机分配到安慰剂组。一项对非洲裔美国人、西班牙人和美国印第安人的研究发现，缺乏有关他们的信息以及他们对组织实施医疗试验的“白人”的不信任，而导致具有非常低的临床试验参与率。

那些参与实验研究，但是不遵循实验处理方法的受试者被称为 不坚持 ，他们也会导致偏性的发生。例如，参与试验一个治疗艾滋病新药的艾滋病病人，有时自己会采取其他的一些治疗方法。更为过分的是，一些艾滋病病人受试者对试验的治疗药物进行检测并扔掉，或者如果他们没有被分配到新药组，他们会增加吃其他的治疗药物。这些做法可能会使试验偏向于不利于这种新药的方向。

一些持续时间长的实验也会遭受中途退出的情况，也就是受试者开始参与了这项实验，但是没有完成实验。如果受试者中途退出实验的原因与实验中的处理方法没有联系的话，那么这种行为除了减少实验受试者的数量以外，不会对实验有其他的损害。如果受试者退出实验的原因是因为他们对实验中的一种治疗方法的反应，那么这将导致一些偏性的产生。

例11 一项医学研究中的中途退出。 在本书练习2. 19中描述了一项实验研究，这项实验表明单纯地减轻体重，在改善诸如高血胆固醇和高血压等使人们处于发生心脏疾病的危险之中的因素方面胜过了运动。这项研究一开始有170名受试者参加，他们被随机分配到一个减少体重方案组，一个运动方案组和一个对照组中。到一年后这项研究结束时，在73名减少体重组的受试者中有29名中途退出了，同时在71名受试者的运动组有22人中途退出了，26名受试者的对照组中有8人中途退出了。这项研究的结论是基于最初那170名受试者中的这111名的结果得出的，他们完成了实验指定的处理方法。

在上述实验中，运动组中途退出的受试者大多是由于每周去进行3次指定方案的运动的时间要求。然而，另外2个组的许多中途退出者对于自己被指定要完成的方案中没包含运动而感到失望。因为在所有这3个组中中途退出者所占百分比相同，所以这项研究的组织者们相信这些中途退出不会导致一个较大的偏性。

处理方法是否现实可行

医学实验是检验治疗方法对病人的治疗效果。但是在许多其他的环境中，实验处理方法只能够模拟所要研究的（治疗）方法。这一点特别是在许多针对人类行为的实验中特别突出。

例12 研究挫折感 。一位心理学家想研究失败和挫折对一个工作团队中成员们之间相互关系的影响。她组织了一个学生团队，然后将他们带入心理学实验室，并让他们玩一种需要团队工作的游戏。这位心理学家在玩这个游戏过程中作弊以至于学生团队经常失败，她通过一个可以单方向观看的窗口观察学生们，并注意学生们在游戏的末期在行为上的变化。

在一个实验室中玩一个小赌注的游戏，而且知道这个游戏很快就会结束，显然这与努力工作数月来开发一种新产品，而这种新产品没有任何功效并最终被公司废弃是多么的不同。在上述实验中，学生们的行为告诉了我们有关那个产品失败的团队的行为的许多信息吗？

心理学家们尽了他们最大的努力来设计完美的实验，以避免像例12中发生的那样人为的环境因素。当他们研究人类的行为时，缺乏现实性仍然是进一步坚定其结论的一个障碍。更糟糕的是，在任何实验中的受试者都可能因为他们知道自己正在被研究而改变他们的正常行为表现。

例 13 耗扫恩（ Hawthorne ）效应。 在20世纪20年代，美国西部电力公司名叫耗扫恩的工厂试图通过实验发现什么样的工作环境改变可以使工人提高生产量。结果发现，当工人们知道是在进行一项研究时，他们所做的任何变化都增加了产量。更多的照明有助于产量增加，但是更少的照明同样也可以。当人们知道他们正在被研究时他们会改变自己行为的这个事实被称为 耗扫恩效应 。

耗扫恩效应使得研究者很难发现一些处理方法对人类行为的影响，而这些处理方法在人们不被研究的时候确实可以改变人类行为。当然，对于对照实验研究来说，它又是另外一个有争议的问题，因为在对照实验中耗扫恩效应至少是平等地作用于所有的被处理的各个组。

结论可能被推广的程度

一个设计良好的实验研究对于特殊的受试者组来说，处理方法可以导致应答上的变化。但是通常实验者能得出一个有关更大的人群或者事物的结论。同时，他们可能也能得出有关处理方法效应的更加广泛的结论，而不仅仅是像那些适用于具体的实际实验中的情况那样。将一个实验的结论推广到什么程度通常是不清楚的。例12也说明了这个问题：运动心理学家们想要得到有关面对失败（不仅仅是在一个实验室中输掉一次游戏比赛）的运动员个人或者团队的结论（不仅仅是有关学生的）。下面是对公共政策影响的一些例子。

例14 中间位置刹车灯。 1986年以后，美国出售的轿车都要求除了在汽车的后部有2个通常的刹车灯以外，还要有较高位置的中间位置刹车灯。这个安全性方面的要求在对出租的汽车和商务汽车的随机对照实验中证实是正确的。这些实验表明，第三刹车灯减少了多达50％的汽车追尾事故的发生。

经过近10年的实际应用，保险研究所发现在现实生活中只有一个5％的追尾事故的减少，第三刹车灯有作用但是比实验结果所预期的低得多。为什么呢？在进行这项实验研究时，大多数轿车还都没有这个额外的刹车灯，所以它一下就吸引了后面驾驶员的目光。而现在几乎所有的轿车都有了第三刹车灯，所以它们已经不再引起人们的注意了。这项实验研究的结论就不能够推广到像安全专家所希望的范围。

例15 饮食与癌症。 能够导致癌症的物质不应该出现在人们的食物之中。当然，研究者并不想在人身上做实验来知道哪些物质能够导致癌症的发生，所以在大鼠身上做实验作为替代。通过给这些大鼠喂养特殊的食物，使它们有比人更多的肿瘤。在这些大鼠的大部分自然寿命中，大约是2年中，它们被喂食了大剂量的检测化学物质。这项随机对照实验要证明，一个大剂量喂食的化学物质是否会导致大鼠癌症的发生，从而知道低剂量的化学物质是否会导致人体癌症的发生。许多科学家现在认为，大鼠的研究结果夸大了化学物质对人类的危险性。

当实验设计和实施并不是在完全现实的情况下完成时，那么对于这个实验的数据资料的统计分析并不能说明这些结果可以推广到什么程度。那些以大鼠为实验对象得出的结论推广到人身上的实验研究必须根据研究者对大鼠与人是如何工作的理解来证明这个推广是合理的。其他一些专家可能不同意这样做。这就是为什么一个单独的实验研究很少会完全令人信服的一个原因，即使实验设计有一个令人信服的必然结果。一个新发现的适用范围必须经过大量的在不同环境情况下实验研究的探索。

一项充分接近实践而能够产生有用信息的令人信服的实验不是基于统计学的，而是基于实验组织者对实验中实验对象的认识。这种为了避免暗藏偏性出现而对细节问题关注的要求同样也包括对受试者情况的深刻认识。 一项好的实验研究就是统计原理与对一 个特定领域研究的理解的有机结合。

练习3

2.20 在“新英格兰医学杂志”中的一篇文章给出了有关医生健康研究的最终结果，这篇文章的开篇语是：“这个医生健康研究是一个 随机的双盲安慰剂对照试验 ，人们设计这个试验的目的是为了确定补充小剂量的阿司匹林［隔天补充325毫克（mg）］是否可以降低心血管疾病的死亡率和补充β－胡萝卜素是否可以降低癌症的发生。”请向一名不懂统计学的人解释什么是“随机的”、“双盲”和“安慰剂对照”。

2.21 Fizz Laboratories是一家制药公司，这家公司开发了一种缓解疼痛的新药。60位需要缓解疼痛的关节炎患者参加了这项研究。每一位病人将接受这个药物的治疗，并在1个小时后询问他们，“你感觉到疼痛被缓解的百分比大约是多少？”

（a）Fizz公司为什么没有简单地将这个新的药物投放市场使用并记录病人的反应？

（b）设计一个实验来比较这个新药与阿司匹林以及安慰剂的作用效果。

（c）我们是否应该告诉病人他们使用了哪一个药物？当病人知道了他们吃的是哪一种药时，这将如何影响他们的反应？

（d）如果病人不知道他们接受的是哪一种治疗方法，这是一个单盲实验。这个实验可以成为双盲的实验吗？解释为什么。

2.22 口味测验。口味测验是要求受试者品尝并比较2种食物的味道，比如百事可乐和可口可乐，并询问他们更喜欢哪一种的口味。这里没有单独的对照组存在，每一个受试者通过品尝2种食品充当自己的对照。

（a）在一个口味测验中，随机化仍然是非常重要的。我们应该如何使用随机化呢？

（b）在一个口味测验中，盲的想法是如何实现的呢？

2.23 以人为受试者且持续一段较长时间的实验研究将面对中途退出者和不能够持续情况的问题。在一个有关一项医学实验的叙述中，我们看到了如下的内容：

针对这个复杂的问题，我们采取了通常被广泛接受的做法，那就是对比了最初随机分配的各个组的死亡率，并且没有将中途退出者或者不能够持续情况在分析过程中排除。这种做法在将冲淡任何存在的作用效果方面，无论是有价值的或者相反作用是保守的。

当我们比较死亡率时，那些中途退出的受试者应该被算作“活着的”。解释为什么这种做法会减弱我们所观察到的一种治疗方法相对一个安慰剂的作用效果。

2.24 许多临床试验研究了通过使用药物或者控制饮食降低血液胆固醇水平是否可以降低心脏疾病的发生。第一位研究人员对他的受试者追踪研究了5～7年。为了在这个相对较短的时间内看到试验的结果，研究人员选择了那些中年就有高血胆固醇水平或者存在心脏疾病的男性作为受试者。这项实验研究通常都表明，降低血液胆固醇水平确实降低了心脏疾病发生的危险性。一些医生对此置疑，这些实验结果是否适用于许多病人呢？为什么？

2.25 在如下的各种情况下，你认为这个实验结果对于什么人群是有效的？（在没有专业知识的情况下，你可能不会明确下面问题的含义，所以你的回答在一定程度上是猜测。）

（a）医生健康研究（例1）。

（b）例7中的补充肌酸。

（c）例12中的行为实验。