案例分析
同性婚姻一直富有争议性,许多人基于宗教信仰表示反对。反对者认为同性婚姻破坏了传统的家庭和婚姻制度,支持者认为这涉及权利平等问题。2011年5月,一项盖洛普民意调查提出问题:“你认为同性婚姻是否应该和传统婚姻一样得到法律认可?”从2004年开始,盖洛普每年都会进行这项调查,大多数调查对象(53%)认为“法律应该承认同性婚姻的合法性”。
2004年2月,这个话题在美国成为重大新闻,受到全国人民的关注。在一些城市——其中最知名的是旧金山市——出现了同性婚礼,尽管这违反了该州的法律。小布什总统对此发表讲话说:“今天,我建议国会尽快通过并送交各州推行一项宪法修正案,该修正案承认和保护婚姻是男女双方以夫妻名义形成的联合体。”关于这项修正案,有多少人支持呢?一项从2003年7月到2004年2月进行的盖洛普民意调查提出问题:“你支持还是反对宪法修正案规定只有男女才能结婚,而不允许男同性恋者和女同性恋者建立婚姻关系?”该项调查发现,“支持该宪法修正案的人为51%,略高于45%的反对者比例”。我们可以信任这个调查结果吗?
这是在随机访谈了2527名美国成年人后得出的结论。盖洛普公司采用了随机抽样的方式,与只访谈那些参加旧金山市同性婚礼的人相比,调查结果的偏差会更小。但是,美国人口普查局公布2004年美国的成年人口约为2.2亿名。在这种情况下从2527名成年人,哪怕是随机抽取的2527名成年人,真的可以了解到2.2亿人的意见吗?
51%的支持率是否真能表明大多数美国人是支持该修正案的呢?2011年5月的民意调查结果来自随机抽样的1018名成年人,这是否能说明当今的大多数美国人反对该修正案?在本章的结尾部分,你会找到这些问题的答案。
从样本到总体
2004年的盖洛普调查发现“支持该宪法修正案的人为51%,略高于反对者的比例”,这是针对约2.2亿的美国成年人得出的结论。但是,盖洛普公司并不知道这2.2亿人的真实想法。这项调查只访谈了2527人,发现其中有51%的人支持该宪法修正案。因为2527位成年人的样本是随机抽取的,我们有理由认为这个样本可以较好地代表总体,并估算出“所有成年人”中约有51%的人支持该修正案。这是统计领域的一种基本做法:用抽样调查的结论,当作对总体真实信息的估计。在讨论这个主题之前,必须先区分清楚哪个数字是描述样本的,哪个数字是描述总体的。
参数与统计量
参数 (parameter)是描述总体的数字。参数是一个固定数值,但我们无法知道参数的实际值。
统计量 (statistic)是描述样本的数字。一旦有了样本,统计量的值即可得知,如果换一个样本,统计量的值就可能有所改变。我们常用统计量来估计未知的参数。
所以,参数之于总体,相当于统计量之于样本。想要估计未知的参数,你只要从总体中选一个样本,用样本的统计量当作参数的估计值即可。盖洛普公司就是这么做的。
例1 你支持宪法修正案吗?
所有支持该宪法修正案的调查对象的比例,就是描述约2.2亿美国成年人这一总体的参数。我们将其记作p,意为“比例”(proportion)。可惜,我们无法知道它的确切数值。为了估算出p的值,盖洛普公司抽取了一个包含2527位成年人的样本。该样本中支持者的比例就是p的估计值,记作 ,读作“戴帽子的p”。因为在2527人中有1289人支持修正案,所以对于这个样本
由于所有成年人都有同样的概率被选入2527人的样本,因此我们可以用统计量 =0.51作为未知参数p的估计值。样本中有51%的人支持修正案是一个事实,虽然我们不知道所有成年人中有多少人支持修正案,但我们可以通过51%做出估计。
样本统计量的变异性
如果盖洛普公司重新抽取一个2527人的随机样本,那么这个样本会包含与前一个样本不一样的人。几乎可以肯定的是,不会有1289人给出支持的答复。也就是说,统计量 的值,会随着样本的改变而改变,因此可能会出现这样的情况:一个随机样本说有51%的美国成年人支持宪法修正案,而另一个随机样本说只有37%的人支持修正案。随机样本通过抽样方法来消除偏差,但由于随机选取的样本有变异性,所以调查结果可能还是不准确。如果从同一总体中重复抽样,但所得结果的变异性太大,我们就无法相信任何一个样本的结果了。
幸好,随机样本的第二大优点可以解决这个难题。它的第一大优点是,随机抽样可以消除偏差。它的第二大优点是,如果我们从同一个总体中重复抽取多个大小一样的随机样本,所有样本统计量的变异情况就会呈现遵循某种可预测的形态(pattern)。我们从这个可预测的形态可以得知,较大样本统计量的变异性,会小于较小样本统计量的变异性。
例2 多个样本
统计学的另一个重要概念是:要知道一个样本有多可靠,就得问问如果我们从同一个总体中抽取多个样本,会出现什么情况。假设事实上(盖洛普公司并不知道)正好有50%的美国成年人支持这项宪法修正案。也就是说,总体的参数p=0.5。如果盖洛普公司用大小为100的简单随机样本得出的 来估算总体的p,会怎么样?
图3–1表示抽取多个样本,计算每个样本的 的过程。对于第一个样本,100人中有56人支持修正案,因此 =56/100=0.56。在下一个样本中,只有36人支持修正案,因此该样本的 =0.36。选出1000个样本,将计算出的 值绘制成图(柱状图),见图3–1右侧。图中横轴代表不同的 值,柱形的高度代表1000个 值中有多少个落在相应的横轴区间。例如,在图上, 值为0.40~0.42的柱形高度略微超过50,这意味着所有样本中有50个以上的样本的 值为0.40~0.42。
当然,盖洛普公司访谈了2527人,而不是100人。图3–2展示了1000个简单随机样本的结果,每个样本的数量为2527人,这些样本是从真实p值为0.5的总体中选取的。图3–1和图3–2绘图的比例尺是一样的,对比两幅图,我们可以看到当样本大小从100增加到2527时,发生了什么。
仔细看看图3–1和图3–2。我们先从总体中抽出多个样本,然后得到许多 值。根据这些 值,我们可以画出柱状图。现在我们来研究一下这两个柱状图。
图3–1 许多简单随机样本的结果放在一起,会呈现出某种有规则的形态。这幅图表现的是从同一总体中抽出1000个大小为100的随机样本的 值的变异情况。总体的p值为0.5。样本统计量 会随着样本的变化而变化,但是 值会落在以p值为中心的范围内
图3–2 在同一个总体中选取1000个大小为2527的简单随机样本,由此得到的1000个 值,和图3–1比起来, 值的分布范围要窄得多
• 对于上面这两种情况,样本的 值会随着不同的样本而变化,但都以0.5为中心,0.5是总体的p值。有些样本的 值比0.5小,有些比0.5大,但并不会都比0.5大,或都比0.5小。
• 大小为100的多个样本的 值的分布情况,会比大小为2527的多个样本的 值要分散得多。事实上,在大小为2527的1000个样本当中,有95%的 值分布在0.4805~0.5195的区间内。也就是说,与0.5的差距在±0.0195的范围内。而在大小为100的1000个样本中,有95%的 值分散在0.40~0.60的范围内,与0.5有±0.1的差距,约为大样本的5倍。所以,大样本统计量的变异性要比小样本小。
结论就是,我们可以信任一个大小为2527的样本,其统计量 的值几乎总会很靠近总体的p值。
而大小为100的样本,在p值是50%的时候,有可能得出 为40%或60%的估计值。
这让我们认识到,当我们用一个诸如 的统计量,去估计诸如p的参数时,所谓的“偏差”(bias)是什么意思。同时,这也让我们明白,变异性的重要程度不亚于偏差。
估计时的两种误差
偏差 指的是,当我们取多个样本时,它们的统计量朝同一个方向偏离总体的参数值。
变异性 指的是,当我们取多个样本时,统计量的值的离散程度。变异性大,意味着不同样本的统计量可能差别也较大。一个好的抽样方法,其偏差与变异性都较小。
我们可以把总体参数的真实值想象成靶子的靶心,而把样本统计量想象成对着靶心射出的箭。偏差和变异性可被用来形容弓箭手对着靶子射了许多箭之后的状况。
偏差的意思是,射出的箭都朝着同一个方向偏离靶心,即样本统计量没有以总体参数值为中心点。变异性大的意思是,箭在靶子上很分散,即样本统计量并不接近,彼此间差异较大。
你有没有注意到,即使是小变异性(箭在靶子上都很接近),也可能有大偏差(箭都朝着同一个方向偏离靶心);反之,即使偏差很小(箭以靶心为中心点分散),也可能有大变异性(箭在靶子上分布广)。好的抽样方法要像射箭能手一样,必须同时具备小偏差与小变异性。
图3–3 射箭的偏差和变异性
如何处理偏差与变异性
减小偏差: 用随机抽样的方法即可。先将总体找出来,再从中抽取简单随机样本,就会得到无偏估计值(unbiased estimate)。也就是说,用简单随机样本的统计量来估计总体的参数值,既不会总是高估,也不会总是低估。
减小变异性: 用大一点儿的样本即可。只要样本足够大,变异性就会很小。
在实际做抽样调查的时候,盖洛普公司只会取一个样本。我们不知道从这个样本得到的总体参数估计值离真实值有多近,因为我们根本不知道总体参数的真实值是多少。但是,“只要是从大的随机样本得到的估计值,几乎总会比较接近真实值”。检视一下由多个样本的统计量构成的形态,我们就可以信任一个样本的调查结果。
误差范围
抽样调查报告的“误差范围”,其实是把我们在图3–1与图3–2中所看到的样本统计量的变异性,转换成一种关于调查结果的可信程度的叙述。
误差范围
“ 误差范围 (margin of error)是±2%”的具体意思是:
如果我们用抽取这个样本所用的方法,去抽取多个样本,那么这些样本的统计量中有95%会在总体参数真实值的正负两个百分点的范围之内。
通常,一个随机样本的统计量,不会刚好等于总体参数的真实值。我们必须用一个误差范围来表示估计值距离真实值有多远,但是,我们又不能百分之百确定估计值和真实值的差距必定小于误差范围。所有样本的统计量中有95%距离真实值很近,而另外5%与真实值的差距则超过误差范围。我们并不知道总体的真实值是多少,所以我们也无法得知,到底样本的统计量是属于那95%“射中”的样本统计量,还是5%“脱靶”的样本统计量。因此,我们说我们有95%的把握认为真实值在误差范围内。
例3 电视新闻
电视新闻播音员说:“最近发布的一项盖洛普民意调查发现,约有51%的美国成年人支持小布什总统关于婚姻的宪法修正案,反对同性婚姻。此次调查的误差范围是±2%。”51%加减两个百分点,分别是53%和49%,总体对该修正案的真正态度落在这个区间之内。
而盖洛普公司实际上说的是:“对于该抽样调查的结果,我们有95%的信心认为,由抽样或其他随机因素造成的误差,应该在正负两个百分点之间。”也就是说,该误差范围只适用于95%的样本统计量,“95%的置信度”就是这种意思的简单表达,而新闻报道中把“95%的置信度”漏掉了。
准确计算出误差范围是统计学家要做的事。但是,你可以用一个简单的公式,算出民意调查的误差范围大概有多大。这个公式将在第21章中讨论。
误差速算法
假设我们用一个大小为n的简单随机样本的统计量 来估计未知的总体参数p。如果置信度为95%,那么误差大致为1/ 。
例4 误差是多少?
例1中的盖洛普民意调查访谈了2527人,对应95%的置信度,误差大约是:
盖洛普公司宣布的误差范围是±2%,这和我们用速算公式得出的结果一致。一般来说,我们用速算公式计算出的结果可能和盖洛普公司公布的结果有些差异,主要有两个原因:首先,盖洛普公司为了让新闻报道简单些,常常对结果进行四舍五入。其次,速算公式只适用于简单随机抽样。我们在下一章将会看到,大多数样本都比简单随机样本复杂,会略微增大误差范围。
我们的速算法还能反映出关于误差范围的重要信息。因为样本大小n出现在公式的分母当中,这意味着较大的样本就会有较小的误差范围。公式中用的是样本大小的平方根,所以想把误差范围减半,我们就需要用一个4倍大的样本。
例5 误差范围和样本大小
在例2中,我们把从同一总体抽出的多个大小为100人的简单随机样本,和大小为2527人的简单随机样本的统计量做了比较。我们发现对于其中95%的样本来说,小样本的误差范围大约是大样本的5倍。
我们的速算公式算出的样本大小为2527人的简单随机样本的误差约为2%,而样本大小为100人的简单随机样本的误差大约是
因为2527大约是100的25倍,25的平方根是5,因此100人样本的误差范围约为2527人样本的5倍。
练习
3.1 向富人征税。 2011年4月,盖洛普公司抽样调查了1077名成年人。“人们对于政府的职能有不同的看法。你认为我们的政府是否应该对富人征收重税,从而实现财富再分配?”该调查发现,有47%的调查对象同意对富人征收重税。在置信度为95%的情况下,该调查的误差范围是多大?
置信度说明
以下是盖洛普公司对于小布什总统提出的宪法修正案的精简结论:“调查发现只有51%的美国成年人支持该修正案。我们有95%的把握认为,所有美国成年人的真正态度会在这个结果的正负两个百分点的范围内。”还有一个更精简的说法:“我们有95%的把握认为,在所有成年人当中,有49%~53%的人支持该修正案。”这些都是置信度说明(confidence statement)。
置信度说明
置信度说明 包含两个部分:误差范围与置信度(level of confidence)。误差范围告诉我们,样本统计量距离总体参数真实值有多远。置信度告诉我们,所有样本统计量中,满足该误差范围的样本统计量的百分比。
置信度说明反映的是一个事实,我们用它来表达对一个样本的结果有多大的信心。“95%的置信度”的意思是,“我们所用的抽样方法,有95%的概率可以得到与总体的真实值这么接近的结果”。以下是对如何解读置信度说明的一些提示:
• 置信度说明永远是针对总体而不是样本。我们可以确切地知道样本中2527名成年人的情况,因为盖洛普调查访谈了他们。置信度说明是根据样本的结果来对“所有成年人”这个总体做出的结论。
• 我们对总体所做出的结论不可能完全正确。盖洛普公司调查所用的样本有可能是误差超过两个百分点的5%的样本之一。
• 抽样调查也可以选择95%之外的置信度。选择较高置信度的代价是较大的误差范围。对于同一个样本来说,99%置信度的抽样调查的误差范围,比95%置信度的抽样调查要大。如果你对95%置信度就很满足了,得到的回馈就是较小的误差范围。记住,我们的速算法计算的就是95%置信度的抽样调查的误差范围。
• 报告误差范围时,使用95%置信度是很普遍的做法。如果一则新闻报道中只说明了误差范围而没有置信度,把置信度视为95%是很稳妥的做法。
• 你想在同样的置信度条件下,缩小误差范围吗?取一个大一点儿的样本就行了。你应该还记得较大的样本有较小的变异性吧。只要你愿意付出取足够大的样本的代价,就可以减小误差范围,同时保持高置信度。
知识普及 如何辨识推销电话
做抽样调查的人痛恨电话推销。我们都接过令人厌烦的推销商品的电话,以至于很多人在还没搞清楚对方不是在卖东西,而是在做抽样调查之前,就已经挂了电话。我们在这里教你一个分辨两者的诀窍。抽样调查员和电话推销员都会随机选择要拨打的电话号码,但是电话推销员会使用自动拨号系统同时打多个电话,在你接起电话之后,推销员才会开始说话。如果你在接起电话后对方暂时无回应,你就可以在推销员拿起话机之前挂掉电话。而抽样调查员打来的电话在你接听的那一刻,就已经有调查员在电话另一端等候了。
例6 2008年大选民意调查
2008年,就在总统选举前不久,民意调查机构美国调查(Survey USA)询问了一些州的选民打算把选票投给谁。在佛罗里达州,他们随机访谈了691名可能的投票人。50%的人回答将投给巴拉克·奥巴马,47%的人说将投给约翰·麦凯恩。美国调查报告说误差范围是±3.8%。在佐治亚州,他们抽样访谈了547名可能的投票人,43%的人说会投给奥巴马,51%的人说会投给麦凯恩,误差范围是±4.3%。
你可以看到,佐治亚州的可能投票人的样本较小,所以结果的误差范围也比较大。我们有95%的把握认为,佐治亚州有38.7%(43%减去4.3%)~47.3%(43%加上4.3%)的可能投票人会支持奥巴马。请注意,2008总统选举中,佐治亚州实际投给奥巴马的选票比例是47%,的确处在这个误差范围之内。
练习
3.2 向富人征税。 2011年4月,盖洛普民意调查抽样调查了1077名成年人。“人们对于政府的职能有不同看法。你认为,我们的政府是否应该对富人征收重税,实现财富再分配?”该调查发现,有47%的调查对象同意对富人征收重税。假设样本的大小为4000人而不是1077人,请计算在置信度为95%的情况下的误差范围,并将其与样本大小为1077人的误差范围做比较。
总体的大小
盖洛普公司抽出的包含2527名成年人的样本,相当于在美国成年人当中,从每82700人中抽出1人。该调查结果与在总体当中从每100人中抽出1人,还是从每82700人中抽出1人有关吗?
总体大小无关紧要
一个随机样本统计量的变异性,并不受总体大小的影响,只要总体至少比样本大100倍。
对随机样本统计量的变异性,为什么总体的大小影响很小呢?想象一下,假设我们从已收获的玉米中抽样,把勺子插进玉米粒当中。勺子并不知道它是在一袋玉米当中,还是在一卡车的玉米当中。如果玉米混合得很均匀(如此一来,勺子舀出来的玉米就是随机样本),样本统计量的变异性就只与勺子的大小有关。
这对于像盖洛普公司开展的全国性抽样调查来说是一个好消息。一个大小为1000或2500的随机样本,因为样本够大,所以变异性小。但是,自愿回应调查的样本或任意样本有偏差,所以样本再大也没用。也就是说,在这种情况下,即使样本很大也不能消除偏差。
然而,样本统计量的变异性是由样本的大小决定的,而不是由总体的大小决定的,对任何计划在一所大学里或一个小城中做抽样调查的人来说,这可能就是坏消息了。举例来说,不管是要估计俄亥俄大学中在政治方面属于保守派的学生比例,还是要估计美国所有成年人中的保守派人士的比例,只要两者要求同样的误差范围,就得抽取一样大的简单随机样本。即使俄亥俄大学只有4.9万名学生,而2009年美国的成年人口超过2.32亿,也不意味着在俄亥俄大学中可以抽取一个较小的简单随机样本。
【统计学中的争议】美国总统大选的民意调查是否应被禁止?
“选前民意调查”(preelection poll)告诉我们,俄亥俄州的选民中有58%的人支持某位参议员。媒体很欢迎这类民意调查,但统计学家可不喜欢它们,因为即使调查过程完全使用正确的统计方法,实际投票结果也常和民意调查的结果相左。接受访谈的人中有许多在选举前改变了主意,或到选举日那天根本不去投票。美国总统大选调查是抽样调查中结果不太理想的一种,因为我们必须“现在”问选民,“未来”他要投票给谁。
在投票者离开投票站时进行的“出口民调”(exit poll),就不存在上述问题。样本中的人,都是刚刚投过票的人。好的出口民调的样本是从全美国的选区中抽出来的,常常可以在距离投票结束还有很长时间时,就能准确预测出美国总统大选的结果。但是,以2004年总统大选为例,出口民调也可能得出错误的结论。这使得关于是否应开展美国总统大选民意调查的争论变得更加激烈了。
你能想出更好的反对进行选前民意调查的理由吗?考虑一下这些民意调查将会怎样影响选民的行为。对于出口民调,你有什么看法?要知道,美国东岸的选举结果会比西岸早几个小时出来。
有关美国总统大选民意调查的一些发人深思的文章,特别是有关预测2004年选举结果失败的出口民调的文章,参见以下网址:
• www.washingtongpost.com/wp-dyn/articles/A47000-2004Nov12_2.html。
• www.washingtongpost.com/wp-dyn/articles/A64906-2004Nov20.html。
• www.edisonresearch.com/exit_poll.faq.php。
• http://thehill.com/opinion/columnists/dick-morris/4723-those-faulty-exit-polls-were-sabotage。
你也可以在谷歌网站(www.google.com)检索关键字“exit poll failures in the 2014 presidential elction”(2014年总统大选出口调查失败)。
小结
本章要点
• 抽样的目的是要从样本中获得有关总体的信息。我们通常用样本统计量来估计总体参数的值。
• 本章讲述了一个重要概念。要描述一个样本是否值得信任,只要问:“如果我们从同一个总体抽取多个样本,会发生什么情况?”假设几乎所有样本得出的结果都接近真实值,那么即使我们不确定样本的结果是否接近真实值,也可以对这个样本有信心。
• 在策划一项抽样调查的时候,首先,要减少偏差,使用随机抽样的方法,而舍弃像自愿回应这类糟糕的抽样方法。其次,抽取的样本数量要足够大,才能减小统计量的变异性。只要使用足够大的随机样本,就能保证几乎所有样本都能得出接近真实值的结果。
• 要表达我们对总体所做出的结论的精确程度,可以用置信度说明。新闻报道中往往只提到误差范围,该误差范围大多数情况下是针对95%置信度而言的。也就是说,如果我们抽出多个样本,则总体的真实值会落在误差范围之内的概率是95%。
• 对于大小为n的简单随机样本,在置信度为95%的情况下,我们可以用1/ 这个公式来计算误差范围。这个公式似乎表明,重要的是样本的大小,而不是总体的大小。只要总体比样本大很多(至少大100倍),这一个原则就永远为真。
在第1章,我们介绍了抽样调查是一种重要的观察研究。在第2章,我们讨论了抽样调查的好的方法和不好的方法。简单随机抽样的方法被引入,它是一种能够巧妙地利用随机性产生无偏差数据的方法,这是统计学中的一个重要概念。
在本章中,我们更详细地探讨了如何通过样本信息获得总体的信息。关键在于如果我们从同一个总体中取出多个样本,会发生什么情况。如果所有样本都给出非常接近真实值的结果,我们就可以相信样本。
在实践中,选取一个简单随机样本到底是容易还是难呢?我们在现实世界中抽取样本时,会碰到什么问题?这是下一章要讲的内容。
案例分析与评估
在本章开头的那个案例里,在2004年的一项盖洛普民意调查中,有51%的调查对象支持小布什提出的宪法修正案,反对同性婚姻。51%的支持率是否意味着2004年时大多数美国成年人支持该修正案?2011年的盖洛普民意调查表明,大多数(53%)的调查对象反对这项修正案,这是否意识着2011年时大多数美国成年人反对该修正案?用本章所学的知识回答这两个问题。你可以将答案写下来,以便没有学过统计学的人能了解你的推理过程。
练习
3.1 见本书第51页。
3.2 见本书第54页。
3.3 下面的黑体数字是参数还是统计量? 美国劳工部宣布,在上个月调查了60000个住户样本中所有属于劳动人口的人,其中有 9.7% 的人失业。
3.4 下面的黑体数字是参数还是统计量? 一辆满载滚珠轴承的货车,平均直径是 2.503 厘米,在买主对整批货的可接受范围之内。检查者从这批货中抽验100个滚珠轴承,得到的平均直径是 2.515 厘米,超过买主的可接受范围,所以整批滚珠轴承被买主退货了。
3.5 下面的黑体数字是参数还是统计量? 选民登记记录显示,费城选民中有 15.4% 的人为共和党人。然而,该市的一个电台脱口秀节目发现,在最近致电给他们的20位本地居民中,有 60% 的人为共和党人。
3.6 下面的黑体数字是参数还是统计量? 一个全国性民意调查机构利用一种随机拨号装置,拨打全国的住宅电话。在最先拨打的100个号码当中,有 32 个是未登记的。这并不令人惊讶,因为全美国有 34% 的住宅电话,没有被住宅电话号码随机抽样调查抽中。
3.7 抽取多个样本实验。 图3–1和图3–2显示出,当我们从同一个总体抽取多个样本时,样本统计量 的情况。你可以依照同样的步骤,做一个小型实验。
图3–4当中是一个小型总体,其中每一个圆圈代表一个成年人。白色圆圈代表赞成小布什提出的宪法修正案的人,而灰色圆圈代表持反对意见的人。你可以数一下,在总共100个圆圈当中,有50个是白色的,所以在这个总体当中,支持者的比例是p=50/100=0.5。
(a)圆圈上面有从00、01到99的编号。用表A从第101行开始抽出大小为4的简单随机样本。在你的样本当中,赞成修正案的人的比例 是多少?
(b)再取9个大小为4的简单随机样本(总共有10个简单随机样本),这次用表A的第102行到第110行抽取样本,每一行对应一个样本。这样一来,你就有10个样本的 值了,将这10个值写下来。
(c)因为你的样本里面只有4个人,所以 可能的值只有0/4、1/4、2/4、3/4及4/4,也就是 必定是0、0.25、0.5、0.75或1中的一个。在一条直线上把这些数字标示出来,并且用这10个数字做出一个柱状图,做法是在每个数字上画一条垂直的线段,线段的长度就是结果等于该数字的样本个数。
(d)从一个大小为100的总体中抽取一个大小为4的样本,当然不是一个很实际的做法,但不管怎样,我们还是来看看你的结果。在你的10个样本当中,有几个把总体参数值(p=0.5)估计得完全正确?对于你所有的样本统计量来说,总体参数的真实值0.5是不是大致在中间的位置?说明一下在抽取多个样本的情况下,为什么0.5会在所有样本统计值的中间位置。
图3–4 练习3.7中总体的100个个体
3.8 抽取多个样本的实验。 我们用小总体当中的小样本,来说明样本统计量的变异性。下列25位俱乐部会员当中有10位是女性,她们的名字旁边标记了星号。俱乐部要随机选出5位会员,为他们免费提供去参加全国大会的机会。
阿隆索 达尔文 赫恩斯坦 迈杜 沃格特*
比奈特* 爱泼斯坦 希门尼斯* 佩雷斯* 温特
布鲁门巴赫 费里 罗 斯宾塞* 威尔逊
蔡斯* 冈萨雷斯* 莫尔* 汤姆森 耶基斯
陈* 古普塔 莫拉莱斯* 图尔明 齐默
(a)抽取20个大小为5的简单随机样本,每次都用表A的不同行。把每个样本当中的女性人数记录下来,并画一个像图3–1中的柱状图来呈现你的结果。在你的20个样本中,女性人数平均是几个人?
(b)如果5个免费机会中没有一个是给女性会员的,你觉得俱乐部会员应不应该怀疑这其中有性别歧视的成分?
3.9 加拿大的全民医疗系统。 加拿大安大略省的卫生部门想知道,全民医疗系统在该省有没有起到应有的作用。有关医疗系统的信息,大部分来自病人的病历,但是掌握该信息的单位不准我们用那些资料来对使用医疗系统和不使用医疗系统的人做出比较。所以,该卫生部门进行了一项安大略省健康调查,访问了61239个住在安大略省的人。
(a)这项抽样调查的总体是什么?样本是什么?
(b)调查发现,在过去的一年当中,样本中有76%的男性与86%的女性至少去看了一次全科医生。你认为样本的统计量会不会接近总体参数的真实值?为什么?
3.10 抽取大样本。 在抽样调查中使用大的随机样本有什么好处,请说明。
3.11 样本统计量的变异性。 在讨论盖洛普民意调查的大小为2527人的样本时,我们曾问过这个问题:“可不可能有一个随机样本说有51%的美国成年人支持宪法修正案,而另一个随机样本却说只有37%的人支持修正案呢?”看一下图3–2,它显示的是当总体参数的真实值是0.5,也就是50%的时候,从1000个大小为2527的样本得到的结果的分布情况。如果从这个总体抽出的一个样本的结果是51%,你会不会觉得惊讶?如果有个样本的结果是37%,你会不会感到惊讶?
3.12 医疗保健费用满意度。 2011年11月盖洛普公司进行了一项针对1012位美国成年人的调查,结果显示有607人对于他们支付的医疗保健费用表示满意。报告的这项结果的误差范围为±4%,置信度是95%。
(a)对于医疗保健费用表示满意的人的样本统计量 的值是多少?请说明这道题的总体参数p指的是什么?
(b)给参数p提供一个置信度说明。
3.13 偏差和变异性。 图3–5中的柱状图,显示出在4种不同的情况下,抽取多个样本所得到的样本统计量的值及其分布情况。这些图类似于图3–1和图3–2中的柱状图。也就是说,柱形的高度代表当从同一个总体中抽取多个样本时,有多少个样本的统计量值会落在柱形的范围内。总体参数的真实值也标示在图上。把图3–5中的每个图,依大偏差或小偏差,以及大变异性或小变异性进行归类。
图3–5 从同一总体中抽取多个样本,并根据不同样本统计量的值所绘制的柱状图。这4个图对应的是4种不同抽样方法所得的结果
3.14 大样本总是更好吗? 2004年2月,《今日美国》做了一项在线调查。浏览该报网站的人被问到这样一个问题:“美国是否应该通过一项禁止同性婚姻的宪法修正案?”访客可以点击按钮作答。截至2004年2月25日下午3点30分,访客中有68.61%的人投反对票,有31.39%的人投赞成票。该项调查共有63046次投票记录。使用我们的速算公式,我们可以得出这个大小的样本在95%的置信度下的误差范围约为±0.4%。我们是否可以说,根据《今日美国》的在线调查,我们有95%的把握认为,有68.61%±0.4%的美国成年人反对美国通过一项禁止同性婚姻的宪法修正案?请解释你的理由。注意,不要将个人意见和统计问题混杂在一起。
3.15 预测选举结果。 在一次美国总统大选之前,一项全国性的民意调查把每周抽样的样本大小从通常的1000人增加到4000人。这个大的随机样本能否把调查结果的偏差降低?是否会减少调查结果的变异性?
3.16 抽取大样本。 一个管理专业的学生计划做一份调查报告,主题是大学生对于上大学期间打工的看法。她设计好一份问卷,并计划随机选取25位学生填写问卷。她的导师认可了她的问卷,但建议她把样本大小增加到至少100人。为什么大一点儿的样本比较好?用速算公式分别计算当样本大小为25和100时的误差,以此来支持你的说法。
3.17 在美国各州抽样。 美国联邦政府的一个委托单位计划在每一个州的居民当中抽取简单随机样本,用于估计每一个州中拥有房产的居民的比例。各州当中居民人数最少的是怀俄明州(544000人),最多的是加利福尼亚州(3700万人)。
(a)如果在每个州中抽取一个大小为2000人的简单随机样本,各州样本统计量的变异性会不会不同?为什么?
(b)如果在每个州中抽取全州人口的1%作为简单随机样本,各州样本统计量的变异性会不会不同?为什么?
3.18 对女性做民意调查。 《纽约时报》为了对某些女性话题做民意调查,从全美(阿拉斯加和夏威夷除外)随机抽取了1025位女性进行访谈。调查发现,有47%的女性说她们没有足够的个人时间。
(a)调查结果表明,在95%的置信度下误差范围为±3%。对于所有女性中觉得个人时间不够的人的比例,做出置信度说明。
(b)向某个完全不懂统计学的人解释,为什么我们不能说“全部女性当中有47%的人觉得个人时间不够”。
(c)解释95%置信度是什么意思。
3.19 佐格比民调(Zogby Poll)。 佐格比民调在解释其调查结果的精确程度时这样说道:“误差范围是±1.2%。佐格比民调的抽样方法和加权计算程序也通过其政治民意调查得到验证,即该机构95%以上的调查结果处于选举日实际结果的正负1%的区间内。”佐格比民调所说的“该机构95%以上的调查结果处于选举日实际结果的正负1%的区间内”,是什么意思?
3.20 对男性和女性做抽样调查。 练习3.18中描述的抽样调查,除了访谈了1025位女性之外,也访问了472位随机选出的男性。调查报告中关于女性的结论,宣称在95%置信度下误差范围是±3%。而关于男性的结论,误差范围是±5%。为什么男性的误差范围比女性的误差范围大?
3.21 解释置信度。 一位学生读到以下叙述:我们有95%的把握认为,美国年轻人在“全国教育进展评估”(National Assessment of Educational Progress)中定量部分(quantitative part)的平均分数,将在267.8~276.2。有人要求这位学生说明这段叙述的意义,学生回答道:“在所有年轻人当中,有95%的人所得分数将在267.8~276.2。”这个回答正确吗?
3.22 死刑。 2011年10月,盖洛普民意调查访谈了1005位成年人,问他们“你支持对谋杀犯判处死刑吗”。赞成者的比例是61%。
(a)在受访的1005人当中,有多少人支持对谋杀犯判处死刑?
(b)盖洛普公司说这次调查的误差范围是±4%,请你向一个不懂统计学的人解释一下“误差范围是±4%”是什么意思。
3.23 计算误差范围。 例6告诉我们,“美国调查”访谈了547位佐治亚州的选民,问他们会投票给哪位总统候选人,结果有51%的人说会支持约翰·麦凯恩。用速算公式计算一下,对所有佐治亚州选民做出结论时的误差范围是多少?你的结果和例6中“美国调查”的误差范围相比有何差别?
3.24 计算误差范围。 练习3.22考虑的是1005人的样本。用速算公式计算一下,如果对美国所有成年人做出结论,其误差范围会是多少?你的结果和盖洛普公司公布的±4%的误差范围接近吗?
3.25 计算误差范围。 练习3.9谈到了一项针对住在安大略省的61239位成年人展开的抽样调查。若要对安大略省的全体成年人做出结论,在95%的置信度下误差范围大约是多少?
3.26 对上帝的信仰。 2011年5月盖洛普公司所做的一项调查显示,在509位成年人的样本中,有92%的人说他们信仰上帝。
(a)用速算公式计算一下,这样的样本,其误差范围是多少。
(b)假设这是一个随机样本,请你对所有成年人中信仰上帝的比例,做出置信度说明。
3.27 堕胎。 2011年的一项哈里斯调查访谈了2362名成年人,发现有1110人允许在“某种情况下”堕胎,这比2009年下降了6个百分点。请你对所有人允许在“某种情况下”堕胎的比例做出置信度说明。(假设这是一个简单随机抽样,用速算法计算误差范围。)
3.28 道德的不确定性和统计的不确定性。 在练习3.27、案例分析与评估中,我们讨论了关于相互矛盾的道德观念的民意调查。在两个调查中,全国的民意是不一致的,表明这两件事存在相当大的“道德的不确定性”。在这两个抽样调查中,误差范围(统计的不确定性)是多大?是否有可能存在具有大的道德不确定性,却具有小的统计不确定性的事情?
3.29 缩小误差范围。 练习3.22里谈到一项对1005位成年人做的抽样调查,假设你希望其误差范围只有练习中的一半大,那么你应该走访多少人?
3.30 取悦国会。 练习3.12谈到一项对1012位成年人做的抽样调查,其置信度为95%,误差范围为±4%。
(a)有位美国国会议员认为95%置信度还不够,他希望达到99%的置信度。对同一个样本来说,99%置信度下的误差范围和95%置信度下的误差范围,有何差别?
(b)另一位国会议员觉得95%置信度已经足够好了,但她想要更小的误差范围。我们怎样做才可以维持95%的置信度,并且得到较小的误差范围?
3.31 失业率。 虽然民意调查通常的置信度都是95%,但也有抽样调查采用其他的置信度。举例来说,美国的每月失业率是根据当前人口调查走访的约60000个住户得来的。随着失业率一起公布的误差范围,大约是±0.2%,置信度为90%。相较之下,95%置信度下的误差范围会更小还是更大?为什么?
3.32 华尔街人士。 2011年4月,一项哈里斯调查访谈了一个包含1010位美国成年人的随机样本,问他们是否同意以下说法:“大部分华尔街人士在认为自己能赚到钱的同时也能逃脱惩罚时,愿意去违法。”结果表明有677人对此表示赞同。请你对这项调查结果写一个简短的报告,不要忘了说明误差范围。注意,别把个人意见与统计结果混淆在一起。
3.33 该向谁问责? 2009年2月由纽约州波基普西的玛利斯特学院公众意见研究所做的一项民意调查,访谈了包含2071位美国成年人的一个随机样本,问他们“谁或者什么应为公司的成功或失败负责”。调查对象中有70%的人将公司的成败归因于高层管理人员的决策。该项调查又向110名公司管理人员问了同样的问题,其中有88%的人认为最高管理层应为公司的成败负责。
玛利斯特学院报告说,其中一项抽样调查的误差范围是±9%,而另一个是±2.5%。你认为哪个抽样调查的误差范围是±9%,为什么?
3.34 模拟(Simulation)。 随机数字可被用来模拟随机抽样的结果。假设你要从一个包含许多名大学生的总体里面,抽取一个大小为25的简单随机样本,总体当中有20%的学生在暑假期间没工作。要用随机数字模拟这个简单随机样本的话,我们可以用从表A当中任一处开始的连续25个数字,来代表我们抽取的样本中的学生。用0和1这两个数字代表没工作的学生,其他数字代表有工作的学生。这样的设计是对我们的简单随机样本的一个正确的模拟,因为0和1这两个数字在所有10个被选中的概率相同的数字当中占20%。
按照以下步骤来模拟50个随机样本的结果,将表A中共50行中的每一行的前25个数字当作一个样本,数一数每个样本当中0和1共有几个。把50个样本的结果,用像图3–1那样的柱状图展示出来。总体参数的真实值(也就是未工作学生的比例,即20%),是不是几乎位于你的柱状图的中间位置?在你的50个样本当中,未工作的学生人数最大是多少,最小是多少?在你的样本里面,有4、5或6个学生没工作的样本数量,占50个样本的百分比是多少?
3.35 网上练习。 浏览www.gallup.com并阅读首页文章。点击More按钮,这篇文章会告诉你在95%置信度下误差范围是多大?
3.36 网上练习。 点击http://media.gallup.com/PDF/FAQ/HowArePolls.pdf,这篇文章给出了盖洛普公司对于为何小样本可以给出关于大总体的可靠结论的解释。这篇文章是怎样解释95%置信度的?