为了知道一个样本所得结果的可信赖程度,提出问题“如果从同一个总体中抽取大量的样本,其结果如何?”结果发现,所有的容量是1 373对父母的SRS样本给出的结果都与所有父母这个总体的真实结果接近,因此《每日新闻》抽取的一个容量是1 373对父母的样本所给出的结果与真实结果接近。在理解如何将这些抽样结果进行报道方面的最后一个步骤就是使“很有把握”和“与真实结果接近”的表述更加准确。当需要一个更加准确的声明时,一般使用具体的数字代替文字。
例11 利用抽样分布。图1-6是图1-2的一个复制图,它显示的是在1 000个容量是1 373的SRS中样本比例 是如何变化的,其总体的真实比例是p=0.80。如果数一下位于图中心的8个柱状矩形的结果,可以发现在这1 000个样本中有926个样本给出的结果是在0.78~0.82,这些柱状矩形跨越了这个间距。以下是一个简要的叙述:
所有样本的93%给出的结果是在总体真实结果的±0.02以内。
上述是一些国民体质监测、居民营养与健康调查和其他的一些抽样调查对其调查结果的可信赖程度大小的声明。
图1-6 当总体人群比率是p=0.80时这个样本比率的抽样分布。这个抽样样本结果的中心93%存在于这个总体人群真实结果±0.02的范围内
例11的声明是基于仅仅1 000个样本得出的,而不是所有样本。如果将抽样一直持续下去,将得到什么结果呢?数学将会把问题解决。
抽取SRS样本很像是从一个洗牌机上取牌或者是掷骰子。数学中的概率论描述了如果无限地将上述过程进行下去的结果是什么。尽管不能够预报一次SRS或者投掷一次骰子的结果,然而,如果持续无限地进行抽样或者投掷骰子,却可以准确地得出结果。其实,真实的抽样分布并不是来自于成千上万的抽样结果,而是来自一个描述所有可能的样本的数学上的计算。当然,成千上万次抽样的结果是与数学上的理想数值非常接近的。可以说,数学给了统计一条捷径。一旦一个抽样调查的统计学家完成了相关的数学处理工作,那么人们就可以理解其结论的含义,而不用自己再进行数学处理。
若听到或读到一条有关一个抽样调查的研究甚至是新闻报道时,可能会碰到一个词“ 误差界限 ”。下面的例子是来自于一家美国报纸的报道。
根据一项近期的盖洛普民意测验(Gallup) 的结果,大多数美国居民对自己目前的体重状况感到并不满意。当被问到“您对您现在的体重状况感到满意吗?”时,在1 234名被调查的成年人中有77%的人的回答是“不满意”。本项调查的误差界限是±4%。
上述文字中的“误差界限是±4%”描述了这项调查研究的 精确度 ,但是其中有许多细节还未说清楚。作为数据资料方面的专家,需要知道其中的整个过程。下面就是这项民意测验的过程。
例12 误差界限。 美国盖洛普民意测验公司向一个包含1 234位成年人的随机样本询问,“您对您现在的体重状况感到满意吗?”。在这里,令人感兴趣的参数是那些对自己目前的体重状况感到不满意的成年人在所有美国成年居民中所占的比例p值。在抽出的样本中,有950人回答“不满意”。用来估计p的统计量是样本比例 :
盖洛普的统计学家计算了 值的抽样分布。然后,他们将本次抽样调查中统计量的可信程度描述如下:
在所有可能抽样样本中的95%,其统计量 值将在总体参数p±0.04以内。
这就是在抽样调查的研究甚至是新闻报道中所说的“本项调查的误差界限是±4%。”下面是对本句话的另外一种说法:
在95%置信区间内,对自己目前的体重状况感到不满意的美国成年人占所有美国成年人的比例范围是
“95%置信区间”是“我们使用了一个使所有可能样本的95%都能够给出准确结果的方法”的简短说法。
盖洛普在例12中的声明与例11中的声明相似,同时都是来自相同的原始资料,那就是统计量的抽样分布。一方面,回答了问题“如果抽取大量的样本,其结果是什么?”的问题;另外一方面,在新闻报道中往往从给出误差界限,例如“±4%”,而省略了有关细节,那就是这个误差界限是通过仅仅所有样本的95%获得的。
盖洛普给出了一个可信的声明,新闻媒体仅报道了这个声明中的一部分。
可信的声明
一个可信的声明包括两个部分:一个是 误差界限 ,另一个是 置信水平 。其中的误差界限说明了样本统计量与总体参数接近的程度。而置信水平说明了能够满足这个误差界限的样本数占所有可能的样本数的百分比。
一个可信声明将一个如果抽取所有可能的样本所得到的结果的事实转变为一个声明,一个关于一个样本结果的信赖度。“95%的置信区间”意味着“用抽样方法抽出的样本结果能够接近真实的结果的情况是每100次中有95次。”剩下5%的抽样样本的结果与真实值的偏差将超出这个误差界限。谁也不能确定抽样样本的95%得出与真实结果相似的结果还是5%错过真实值而存在较大的差异,只能说有95%的把握结果是捕获了真实值。以下是对解释可信声明的一些提示:
▶一个可信声明所得出的结论总是适用于总体的,而不是针对样本的。可以准确地知道样本中1 234人的真实感受,因为盖洛普访问了他们。可信声明利用这一个样本结果来阐述所有的成年人这个总体的看法。
▶关于这个总体的结论从来就没有百分百的确信。盖洛普的抽样样本可能是那5%中的一个,其结果会错过真实数值而存在超过4%的差异。假如95%的置信区间还不够好,则可以要求更高的置信区间,例如99%。但是是不能够达到100%置信区间的,除非误差界限包括了从0~1 (100%)的范围,显然这是没有任何用处的。
▶如果想要99%的置信区间,则必须接受一个比95%置信区间更大的误差界限。由此可见,需要在两者之间寻找一个折中,那就是在能够将样本统计量锁定在总体参数左右一个很小的范围内(误差界限),以及保证使一个抽样样本的结果能够满足误差界限要求的程度。
▶调查研究通常总是报告95%置信区间的误差界限。假如一项调查研究或者一条新闻报道只给出了误差界限而没有置信水平,则假设其置信水平是95%是很安全的。
▶如果要在一个相同的置信水平上有一个较小的误差界限,该怎么办呢?抽取一个较大的样本。请记住,抽样样本容量的大小决定了其结果的精密度。可以通过付更大的代价去抽选一个足够大的样本而获得一个较小的误差界限,同时具有较高的置信水平。例如,4%的误差界限对于估计儿童青少年的肥胖状况来说是不够好的,这就是为什么目前的儿童青少年肥胖状况调查的抽样样本是6 000人以上而不是1 234人。
表1-1给出了有关美国盖洛普民意测验抽取样本中的误差界限的部分细节问题。盖洛普抽样方法是典型的全国范围的抽样调查,所以可以用这张表格来理解大多数全国范围抽样样本的变化情况。表中所有样本误差界限的置信水平都是95%。
例13 盖洛普民意测验的部分细节。 美国盖洛普民意测验访问了1 514位成年人后发现,其中有53%的人反对一个较长的学年制度。那么我们可以得出什么样的可信声明呢?
由于这个1 514人的样本接近1 500人,因此使用表中的针对样本容量是1 500的条目。表中显示这个调查的误差界限不会超过±3%(3个百分点)。这样就有95%的把握确信有50%(也就是53-3)-56%(也就是53+3)的美国成年人反对延长每学年的时间。
表1-1 1972年盖洛普民意测验使用的抽样过程的精密度
来源:George Gallup,复杂民意测验观测者指南(Princeton Opinion Press,1972),P 228
解释:这张表显示的是所有抽样的95%以内的抽样样本百分比p的范围(+或者-)。这个误差界限取决于样本的容量和总体百分比p值。例如,当p接近60%时,所有容量是1 000的样本的95%将有一个在56%~64%之间的p值,这是因为它的误差界限是±4%。
从表1-1可以看出,误差界限随着样本容量的增大而变小。还可以看到其他一些变化:误差界限多少受一点参数p的影响,也就是表中的“总体百分比”。当然,这个p值并不清楚。为了安全起见,样本容量只要选择那一栏中最大的那个误差界限就可以了。当总体接近于被平均分为两个部分的时候(总体百分率“接近50”),误差界限最大。另外,误差界限不会发生较大的变化,除非真正的p值偏离1/2较远。例如,对于一个1 000人的抽样样本来说,当p值是30%~70%间的任何位置上时,其误差界限总是±4%。假如总是使用±4%作为误差界限,那么对结果的影响是很小的。
应记住的是,表1-1是为一个复杂的全国范围的抽样样本制定的。对于单纯随机抽样样本的误差界限来说,相对表1-1中的那些误差界限要小一点,其详细内容见第7章。
1.16 大学生的营养状况。有关一项对某大学中学生营养状况的调查研究文章指出,“在被调查的2 349名大学生中,1 102人存在营养不良的状况,占46.91%。”这篇文章还指出,“这个容量是2 349人的样本的误差界限是±3%。”请解释“误差界限是±3%”的含义。
1.17 兴奋剂对运动员身体健康有害,是否尝试?一篇新闻文章报道,在运动员知道服用某种兴奋剂对健康有明显的危害,但它能够提高自己的运动能力,在这种情况下,运动员是否会选择尝试这种兴奋剂?针对这个问题,在一个由1 108位知名运动员组成的抽样样本中进行了调查研究,结果显示其中有78%的运动员称会拒绝尝试,而其中有10%的运动员称一定会尝试。这篇文章最后说,“这次调查研究的抽样误差界限是±4%。”我们是否能够确信在所有的运动员中,有6%~14%的运动员会尝试这种兴奋剂呢?解释你的答案。
1.18 平衡收支。美国对1 190名成年人的调查发现,其中有702人更喜欢通过减少税收来平衡收支。这项调查结果所宣布的误差界限是±4%。这个新闻报道并没有给出置信水平,但可以很有把握地确定这个置信水平是95%。
(a)在这个样本中喜欢平衡收支的人所占比率是多少?用语言解释在这个具体情况下总体人群参数p是多少。
(b)对参数p作一个置信声明。
(c)美国国会的一位成员认为95%的置信水平是不够高的。他想要99%的置信水平。基于这个相同的抽样样本,与95%置信水平的误差界限相比较,99%置信水平的误差界限将如何变化?
(d)美国国会的另外一位成员对于95%的置信水平比较满意,但是她想要一个比±4%更小的误差界限。我们如何在确保95%置信水平的同时,得到一个相对较小的误差界限呢?
1.19 害怕犯罪行为。美国一项盖洛普民意测验向一个由1 493名成年人组成的随机样本询问,“你是否因为可能出现犯罪行为而害怕在晚上走出家门到离开家1公里范围之内的地方?”在这个样本中有672人回答“是的。”利用表1-1作出一个置信声明,关于那些因为犯罪行为而害怕晚上外出的人在美国所有成年人中所占百分比的声明。
1.20 将来肥胖症会更严重?单纯性肥胖症是21世纪儿童的严重健康问题,是与生活方式密切相关,以过度营养、运动不足、行为偏差为特征的儿童常见和多发的营养性疾病。儿童时期的肥胖将为今后的肥胖“打下良好的基础”,成年后会更加肥胖,危害健康。辽宁省大连市金州区疾病预防控制中心对由8 080名7岁以下的儿童组成的样本,进行了一项大连市城区范围的儿童单纯性肥胖状况调查研究,结果儿童单纯性肥胖的检出率是6. 89%。在你所看到的这项研究结果中并没有给出误差界限。如果这个调查研究使用的方法与盖洛普使用的(大多数情况下使用的方法)方法非常相似,那么基于所给出的信息你可以作出什么样的置信声明?
1.21 大街上的安全性?一条新闻报道说,“有关美国犯罪情况的最新Harris调查表明,有26%的美国人感觉到在大街上比1年以前更加不安全了。”你能够对这个结果作出一个置信声明吗?如果能够,请作出声明。如果不能,解释为什么。