统计学是一门关于方法论的学科,是关于如何从不确定性中做出明智决定的一门技术。许多人简单地以为统计就是收集数字,但正如我们在绪言中所介绍的,这仅仅是统计学的原始意义。统计学现在已经远远超出了这一范围,它已经发展成为广泛应用于经营管理、社会科学、自然科学等领域的科学分析方法。这是一门很有意思的学科,它将引起学习者的浓厚兴趣,它将告诉人们怎样通过打开几个窗口去描述一个未知的世界。通过这门课程的学习,人们将会发现用一种过去从来没有设想过的方式来考虑问题是何等的令人兴奋。为了对什么是统计学建立一些概念,让我们先来看两个典型的应用实例——广播电视受众调查以及一种实验性的外科技术。
为了科学地检验2004年8月雅典奥运会期间我国电视媒介的宣传效果,央视-索福瑞媒介研究公司委托中国传媒大学(原北京广播学院)调查统计研究所进行了“奥运会媒介宣传效果研究”。此项研究包括三个子课题,受众奥运意识和认知研究是子课题二“2004雅典奥运会传播效果研究”中的一项研究课题(问卷参看本书高级篇附录,本书将自始至终引用这一实例,简称“雅典奥运调查”)。我们想要了解的其中两个问题是:在雅典奥运会即将开始和刚刚结束之时,我国十城市 居民中,表示其“目前最关注的问题”是“2004年雅典奥运会的举办”的居民所占的比例P 1 和P 2 。很清楚,详细地调查每一个居民是不现实的,我们所能做到的就是抽取部分居民,也就是抽取一个样本,希望样本比例P 1 和P 2 能分别给出十城市全体居民(即总体)相应的比例π 1 和π 2 。
那么,样本应该怎样选取?历史上曾有过一些令人深思的教训。正如在绪言中所提到的,1936年,民意测验在美国才刚刚起步,《文学文摘》试图预测美国总统选举的投票率,为此他们向1000万选民寄去了调查表,这些选民是从一些名单上挑选的,例如从电话簿、俱乐部名册等等。在这些名单中,倾向于支持共和党的比例大大超过了全体选民中倾向于共和党的比例。结果在寄出的1000万份调查表中,只有四分之一的选民做出反应寄回了调查表;而在这四分之一中,倾向于共和党的比例又比没有反应的那四分之三占更大的比重,由于这个样本的偏向性太大,以致他们得出了共和党将得到半数以上选票的预测。但选举那天的结果完全出乎他们的意料之外,选民中只有40%投了共和党的票,而民主党的罗斯福却以多数票当选。
试想,如果雅典奥运会的调查按下面所说的几种方案去做,那么,也将可能得到有偏差的样本:在大街上非正式地进行调查(调查者可能下意识地选择那些看起来比较文明或穿戴整齐一些的人来问,而模样粗鲁的人或心烦意乱、抱孩子的母亲往往会被忽略);挑选各单位的先进工作者或人大代表;到某个学校去访问正在忙碌的教师,等等(想想为什么后两种情况也是有偏差的)。
我们应该理解,为了避免偏差,每个居民都必须有被选中的机会。而且,为了防止对任何居民的忽视(即使是无意识的),样本也应当随机选取。随机取样有几种方法,比较具体可行的是:把每个居民的名字或电话号码写在一张小纸条上,折叠成大约相同的形状放入一个大容器中,充分搅拌后从中抽取一个样本,比方说,抽取1000张小条。这就给出了1000名居民的名字或电话号码,他们就构成了大小为n=1000的一个所谓“简单随机样本”。
遗憾的是,在实践中,抽取简单随机样本有时是十分费时耗财的。实际上,有一些更为有效的办法,例如“多级抽样”:先从每市随机抽取几个区;在每个抽中的区中再随机抽取几个居民点;最后在每个居民点中随机抽取几位居民。关于抽样方法,我们将在本书的第三部分详细介绍。在此之前的两部分中,我们假定做的都是简单随机抽样。
当含量不大时,简单随机样本往往不会完美地反映总体。如果只是随机抽取几个选民,那么“中彩”的“幸运”将会是一个因素。例如在一个有100位居民的总体中,假定表示自己“目前最关注的问题”是“2004年雅典奥运会的举办”的居民恰好是50人,如果抽取一个n=10的简单随机样本,那么结果会怎样?当然最大的可能是抽中5名表示自己“目前最关注的问题”是“2004年雅典奥运会的举办”的居民。但是由于“中彩”的“幸运”,可能会抽中8个或9个这样的居民。这就如同向上抛掷一个钱币,抛10次可能会出现8次或9次国徽朝上一样。也就是说,表示“目前最关注的问题”是“2004年雅典奥运会的举办”的居民的样本比例P是80%或90%,这和总体中的比例π(50%)有很大的差距。
在大样本中,用样本比例P来估计总体比例π就可靠得多。事实上,要说明用P估计π的精确程度,最简单的办法就是用所谓的“置信区间”来表示,即
π=P±(一个小误差) (1-1)
关键的问题是:“这一误差有多大?”“我们有多大的把握说上式是对的?”这是本书将要讨论的主要内容之一。在第五章中将给出如下更精确的表达式:
对于简单随机抽样,置信度为95%的置信区间是
其中π和P分别表示总体和样本的比例,n为样本量(大样本公式)。
例1-1 分别在2004年雅典奥运会即将开始和刚刚结束之时进行的我国十城市居民的两次电话调查,采用的都是按照性别和年龄配额下的随机抽样,它们所给出的精度和简单随机抽样差别不大。因此,在本书的前两部分中,假定它们实际上是简单随机样本,不会造成什么损失,这样在计算上可以简便得多。同样,对盖洛普的民意测验也将近似地按简单随机样本对待。
雅典奥运会即将开始(8月10日~13日)和刚刚结束(8月30日~9月4日)之时(以下简称“之前”和“之后”),在十城市分别电话抽取了1000位和1055位居民,最后的有效样本量分别是994和1000,其中分别有189位和203位居民表示其“目前最关注的问题”是“2004年雅典奥运会的举办”(以下简称“关注奥运”)。分别求雅典奥运会“之前”和“之后”,十城市居民中“关注奥运”的(总体)比例π 1 和π 2 的95%置信度的置信区间。
解:① 样本量n 1 =1994,
奥运会“之前”表示“关注奥运”的样本比例 ,代入(1-2)式得
因此 π 1 =0.190±0.024 (1-3)
或 0.166≤π 1 ≤0.214
② 样本量n 2 =1000
雅典奥运会“之后”表示“关注奥运”的样本比例 ,代入(1-2)式得
因此 π 2 =0.203±0.025
或 0.178≤π 2 ≤0.228
也就是说,在95%的置信度下,十城城市居民在雅典奥运会“之前”表示“关注奥运”的比例在16.6%与21.4%之间;在雅典奥运会“之后”表示“关注奥运”的比例在17.8%与22.8%之间。
本书的主要目标之一就是讨论(1-3)或(1-4)那样的置信区间,另一个与之有关的目标是“检验假设”。例如,假定有一断言(统计上叫假设):十城市居民中只有15%在雅典奥运会“之前”表示“关注奥运”,根据(1-3)式给出的信息,我们当然将拒绝这一假设。一般来说,在置信区间和假设检验之间总是有这一类密切联系的。
我们再对(1-2)式做如下的小结:
1.对的估计并不是确确切切地给出的,按(1-2)式计算的结果中,只有95%正确。我们必须承认,有5%的可能会抽到一个很偏的样本,这就好像将钱币投掷10次,也有可能9次会是国徽朝上那样。
2.随着样本量n的增加,可以注意到(1-2)式的误差范围缩小了。例如,如果我们将例1中的样本含量增加到n 1 =1000,假定样本在雅典奥运会“之前”表示“关注奥运”的比例还是19.0%,那么在95%的置信度下,其置信区间就变窄,也就是更精确了:
π 1 =0.190±0.008
这在直观上是正确的,因为更大的样本包含了更多的信息,因此会有更精确的结论。
总之,通过随机抽样,我们可以对未知的总体做一个“无偏的”估计,这是一个包含有不确定性的置信区间。
1-1 2004年夏天陕西人民广播电台收听状况调查中对陕西省12~74岁之间广播听众采用分层多阶段抽样进行专题调查,样本量n=800(按前面所提到的,将该样本近似地按简单随机样本对待)。有关样本比例如下表:
试分别计算95% 置信度下,最近一个月收听过陕西人民广播电台各个频道广播的居民的总体比例的置信区间。
1-2 1980年美国总统选举的前10天,盖洛普的一次民意测验给出了支持卡特的如下4组百分比:
男性 49%(n=600)
女性 58%(n=600)
30岁以下 48%(n=200)
30岁以上 55%(n=1000)
1) 对每一组,分别计算95%置信度下支持卡特的总体比例的置信区间;
2) 如果你能有95%的置信度认为某一组支持卡特的占多数,那么就在后面打上星号标志。
1-3 近年来,美国6次总统选举预测情况如下,其中括号内的数表示盖洛普在选举前对1500位选民的民意调查结果(略去了第三党候选人):
1) 计算各年中民主党支持者总体比例的95%置信区间;
2) 对照下面所给出的真正选举结果,对错误的置信区间(即没能把真正的比例包括在内的)打上星号标志。
1-4 讨论下面的抽样计划,指出偏差所在,想想如何减少偏差:
1)为了预测北京市居民对房改的态度,选择每条街道拐角处的住户,调查在家中的长者;
2)某大学为了估计其女毕业生在毕业5年后的平均收入,就在回校参加第15届校友团聚会的全体女生中进行调查。
我们在前一节看到了如何采用随机抽样使样本去掉偏差,本节我们再来看看随机化怎样类似地使实验设计去掉偏差。我们从“科学的证据是如何构成的”开始考虑。
先看一个医学上的实例。1962年,美国的医学杂志刊登了一份关于胃溃疡治疗新技术的报告:患者吞入一只气球,内装冷冻液体,然后打气使胃冷冻。其目的是使胃消化过程暂时停止,以便使溃疡开始愈合。问题在于,这种冷冻治疗法在临床实践上效果如何?该技术的发明者Wangensteen对24位患者试用了冷冻法,而且全部都治愈了。
人们由此可能认为该治疗法是十分有效的。不过,也有人认为该治疗法可能是根本无效的,因为如果不接受这一治疗,患者也可能会恢复健康。那么,我们应当如何评价这两种不同的解释呢?应当比较“被治疗的”患者组和“未被治疗的”患者组,后者也叫做“对照组”(或“控制组”),如果“被治疗的”那组情况更好,就可以认为该治疗法是有效的。这就提出了一个在实验开始之前就必须考虑的重要问题:研究者面对一群患者,怎样决定将哪些人分配到“治疗组”、哪些人分配到“对照组”?
大家可能想到的一个办法是让医生来决定,但是医生有可能挑选那些身体素质较好、足以经受治疗压力的患者到“治疗组”。这就产生了一个实质性的问题:即使治疗法毫无价值,“治疗组”的情况也可能好些,因为这些患者本来就比较健壮。如此,治疗法的效果就无法根据所观察到的“治疗组”和“对照组”的差别来判断。也就是说,治疗前患者的身体素质是混淆治疗效果的一个外部影响因素。
那么,怎样才能去掉这些外部影响呢?回答是:要保证使对照组和处理组(即治疗组)中患者的身体素质处于同样水平;同时,还应该保证在其他方面这两组也是相近的。换句话说,对两组可能有的所有外部影响因素,平均来说都应该是相近的。为此,最好的办法就是通过随机化来实现。
回想一下怎样通过随机化得到一个十城市居民的无偏样本。在实验设计中,需要的也是类似的方法:将每个患者的名字写在纸条上,在容器中充分搅拌后随机地(任意地)抽取其中的一半,将他们安排到处理组,而另一半则到对照组。这样,每一个比较健壮的患者将有同样的机会被分配到处理组或对照组,当然,每个体弱的患者分到这两个组的机会也是相同的。因此,平均地说,处理组和对照组在身体素质方面从一开始就是相同的。类似地,两个组在其他有关因素如年龄、性别、饮食习惯等方面,平均来说也是从一开始就是相同的。
为了保证胃冷冻实验的公正性,两组患者不仅要在开始时各方面情况都相同,而且还必须一直保持相同(除了接受治疗和不接受治疗不同之外)。假定最后对患者的疗效做评价的医生知道哪些人接受了治疗、哪些人没有接受治疗,他就有可能自觉或不自觉地对治疗过的患者给予较好的评价(尤其是如果该治疗法是他发明的)。因此,即使是医生,也应让他自始至终都不知道谁接受了治疗。当然,患者本人也应该不知道。因为,患者为了让辛辛苦苦的医生高兴或出于礼貌,也可能夸大治疗的效果。所以,实验应该是“双盲”的。
为了不让患者觉察到真假,可以给对照组的患者进行一种和“真治疗”区别不出来的“假治疗”。根据Ruffin1969年在《新英格兰医学》杂志上发表的论文,胃冷冻的假治疗设计得十分巧妙:对控制组的患者也安排做一次像胃冷冻那样的手术,所不同的只是在气球上装一旁路,让冷冻液在使胃冷冻之前就流回来,因此患者和医生都不知道真假。知道实际安排的只有一个人,他就是投掷钱币并因此而决定旁路开关的那位统计学家。
当Ruffin将胃冷冻治疗变成双盲的、随机化的实验后,结果变得十分有趣。该实验有82位患者在处理组,78位在对照组,他发现:
这一研究的结果说明,在治疗十二指肠溃疡中,冷冻法并不比假冷冻治疗结果更好……以前的研究者所报告的关于疼痛症状减轻以及自感症状改善等,可以合理地假定为大概是由于(被动的、短期间的)心理上的治疗效果。
在医疗实验中,虽然反复地强调对患者的随机化安排以及双盲法的重要性,但这些还是常常被忽视。只有严格地遵循这些原则,而且在按这些苛刻的方法收集到所需的资料之前坚持不发表实验的结果,才能使假象保持最小,从而避免错误的结论。
聪明的读者现在可能会发现,在我们的周围,类似胃冷冻法那种由于没有科学地安排实验而可能得出错误甚至有害结论的“处理”实在太多了。各种化妆品、保健品的“奇效”、各种治癌新法的“治愈率”等等,是否也该考虑一下其得出的评价根据的是什么样的实验?
如果统计学家无法安排随机化实验,只是被动地观察医生对一部分患者的治疗,那么其结果就会渗进没有受控制的外部因素,我们称之为单纯观察。其结果往往是带有偏差的。
图1-1 双盲随机实验的逻辑
另一方面,如果对于谁接受什么治疗的决定是经过精心的随机化方式得到的(即按抽签或投掷钱币的方法决定的),那么对所有的外部因素就实行了很好的控制。如果再进一步,患者和医生对谁接受了治疗、谁没接受治疗都不知道,那么结果就是一个双盲随机实验。正如图1-1所示,这样的实验在科学上是理想的,因为双盲随机实验保证了平均意义上两组不但在实验开始时平等,而且一直平等地接受治疗和观察,因此才可能进行公平的比较。
每当引进新的医学方法或社会计划时,在某一阶段必须先在人身上试用,也就是说做实验。那么用人来做实验是否道德?可是,如果不做实验就加以推广,又有可能给更多的人带来伤害。对于这个伦理学上的难题,我们不妨引用一位名叫Peacock的外科大夫1972年发表在《医学世界消息》中的一段话来做一个绝妙的小结:
当我还是一个医专的低年级学生时,有一天,一位十分显赫的波士顿外科医生访问了我们的学校。他宣读了一篇了不起的论文,内容是关于成功地接受过血管重造手术的一大批患者。讲演结束时,坐在最后面的一位青年学生胆怯地问道:“您安排了对照组没有?”好家伙!这位大人物挺直身躯敲着桌子说:“难道你的意思是说我应该只对一半的患者动手术吗?”大厅一下子变得鸦雀无声。后排的那个声音犹豫地答道:“是的,这正是我心里所想的。”来访者的拳头终于随着咆哮落了下来,“当然不行!否则会有一半患者注定要死掉了!”天哪,大厅里安静极了,几乎听不到那个微弱的声音还在问:“是哪一半?”
从前面的分析中我们看到了,在不受控制的观察研究与随机化实验中,我们肯定选择后者。但有时候,随机化实验又是不可能的,特别是在社会科学中。例如,假定我们想要确定性别是否影响工人的工资,并希望尽可能排除其他因素如工龄、学历、能力等对工资的影响。那么我们设想一下随机化实验(如果可能的话)应该如何安排?首先对于一个工人的样本,我们必须能随机地“分配”性别,然后观察此后10年或20年中两组工人的工资收入情况,这样当然排除了其他因素的影响。但是,我们显然是不可能随机地“分配”性别的,因此只能求助于单纯的观察研究,把样本中出现的工人的性别记录下来,是什么性别就记录什么性别。
有时候,随机化的安排尽管从理论上讲是可能的,但实际上根本行不通。例如,如果我们要想了解大学教育对人一生的影响,如果能够找到一个由高中毕业生自愿参加实验者组成的样本,并随机地将其中的一半送上大学,另一半当作对照组,若干年后这个问题肯定将得到回答。但是谁会自愿去冒这个险呢?
又比如,我们想要确定电视广告所能产生的经济效益。如果我们能从全国的所有企业中随机地取出一半,让它们都发布电视广告,余下的那一半就当作对照组,问题不就解决了吗?可是企业的领导者会因为随机化实验的缘故就轻易把发布广告的权力交出来吗?
有时候,随机化实验是可行的,但人们是否会接受并采用呢?比如有一个针对学龄前儿童智力开发的电视教育系列节目,想要对它作出正确的评价,我们可以在一些幼儿园中进行实验。随机地决定哪些儿童可以收看这个节目、哪些儿童到对照组,会是比较公正的办法,而且这也符合平衡有效地进行科学实验的需要。但遗憾的是,即使随机化实验行得通而且花费不大,在实际上也几乎不被采用。是研究者不欣赏它的重要性吗?还是因为某些行政管理人员无法承认就那么一个小小的钱币就会把分派工作做得比他们还好?考虑一下这个问题是很有意思的。
不管是什么原因,只要是可行的,就应该尽可能地采用随机化技术,因为随机化的分配才可能避免偏差。
但是在社会科学中,随机化往往十分困难,这常常意味着没有别的方法,只能抽取在样本中出现的个体来进行观察研究。那么在这样的观察研究中,怎样才能减少由于不受控制的外部因素所引起的偏差呢?一种补偿的方法叫做“多元回归分析”,或简单地叫“回归”,我们将在本书第四部分的第十七章重点讲述。
虽然在随机化实验不可能进行时采用回归分析的效果最好,但它也不是十分完美的,因为它不可能识别无穷多的外部影响。因此必须认识到,在分析一项观察研究时,没有什么办法可以完全补偿由于缺少随机控制所造成的损失。不过,不管是在随机化实验还是在观察研究中,回归都是十分有用的,它只用一个等式就可能很好地描述一个变量和其他几个变量的关系。
1-5 请说明由于“处理”不当而导致其尽管无用甚至有害,可是一直延续使用了多年的历史性例子。
1-6 举一些现代“处理”的例子,它们可能是无用或者有害的,但人们仍然在使用。因为它们没有很好地被评价,因此没有人知道它们的真实效果。
1-7 假定在一次社会调查中,重点高中的大学升学率平均为普通高中的10倍。那么下面的陈述是否准确,试说明理由:
“进入重点高中的学生其上大学的机会是进入普通高中学生的10倍。”
1-8 G.Box是世界上一流的统计学家之一,他曾经说过:“要想知道你准备推断的系统发生了什么,你必须实实在在地对它进行推断,而不只是被动地观察。”通过本章的学习,你认为这段话的含义是什么?
1.统计学是关于通过取自某总体的样本来描述和推断该总体的方法,为了避免偏差,样本必须是随机抽取的。因此,可以构造一个置信区间,它包含了一个表示抽样不确定性的误差范围。
2.在确定某个处理是否有效的实验中,怎样避免偏差?必须采用随机方法来决定让谁去接受处理、让谁留下作为对照者。而且,对于任何有可能对结果产生偏见的人,都应该避免使他了解是谁接受了处理而谁没有。
3.就像在生命科学中那样,在社会科学中随机化实验也变得越来越普通了。不过,还有许多可以做而没能做的事。
4.当有许多影响因素存在时,采用回归方法是适当的。特别是在随机化实验不可能的情况下,回归方法就更有价值。这时我们不得不满足于观察研究。