美国《建议》栏目的专栏编辑Ann Landers曾经询问她的读者一个问题,“假如你不得不再做一次选择的话,你将选择要孩子还是不要孩子?”Ann Landers收到将近1万份答复,其中几乎有70%的人的回答是“不要!”许多来信中包含了孩子如何给父母带来许多痛苦的故事。这是一个典型的自愿响应抽样的例子。受美国《每日新闻》的委托进行了一项专业的全国范围的随机抽样调查,调查了1 373对父母,结果发现有91%的父母还想再要孩子。一个自愿响应抽样给出70%“不要”的结果,然而实际情况却是调查总体人口中的近91%是“要”。
那么《每日新闻》的抽样调查结果是否真的能够说明在美国所有父母中大约有91%的父母还想再要孩子?正如一名报纸记者所说的,“质疑我们在报纸中读到的任何统计结果的真实性对于我们来说是一件很遥远的事情,但是我们所讨论的是针对我们所生活的这个临近地区的每5万人中抽取1个的抽样问题。”这位记者提出了一个自己的知觉问题,即为什么能够相信一个样本,它仅仅是从总体人口中的每5万个个体其中的一个组成的样本。
SRS的一个优点就是它不存在任何偏性。《每日新闻》所做的调查是给予所有父母相同的机会做出回答,而不是偏向于那些对自己的孩子烦恼到一定程度而去给Ann Landers写信的父母们。然而,当仅仅从被调查的1 373对父母所获得的信息中得出有关数以千万的父母的结论时,仅仅消除了抽样的不公平是不够的,需要对利用样本得出有关总体信息的过程进行仔细思考。
选择样本的目的是试图得出总体的结论,而不是仅仅局限在样本本身的结论。当《每日新闻》询问样本中的部分父母他们是否还想再要孩子时,其中有91%的回答为“是”。这个91%所描述的是样本的特性,就是《每日新闻》所实际访问的1 373对父母的特性。而调查的目的是想知道所有还想再要孩子的父母所占百分比。下面的词汇是用来区分一个数字是描述样本还是描述总体的特性。
参数和统计量
参数 是一个用于描述 总体 特征的数字。参数是一个固定的数字,但是在实际操作中不知其真实值。
统计量 是一个用于描述 样本 的数字。抽取一个样本后,就知道了一个统计量的数值,但是对于不同的样本来说这个数值是变化的,通常利用一个统计量来估计一个未知的参数。
所以参数是针对总体,统计量是针对样本的。如果要对一个未知的参数进行估计就从总体中选择一个单纯随机抽样样本,利用一个样本的统计量作为估计。事实上,《每日新闻》就是这样做的。
例8 你还想再要孩子吗? 所有还想再要孩子的父母在美国所有父母中所占的比例是一个描述所有父母这个总体的一个参数,我们将其称为p,代表“比例”。p的真实数值未知。为了对p进行估计,《每日新闻》抽取了一个含有1 373对父母的样本。样本中表示还想再要孩子的父母所占比例就是一个统计量,我们将其称为 ,读为“p-帽子”。结果在这个容量为1 373的样本中,有1 249对父母称还想再要孩子,所以对于这个样本有
由于一个SRS给予了所有父母相同的被询问的机率,因此利用统计量 =0.91作为对未知的参数p的一个估计是合理的。在这个样本中正好有91%的父母还想再要孩子,于是估计在所有的父母中大约有91%的父母还想再要孩子。
如果再抽取第二个由1 373对父母组成的随机样本,那么新样本将有不同于第一个样本的人在其中。在这个新样本中不会正好再有1 249个肯定的回答几乎是确定无疑的。也就是说,不同抽样样本的 值是不同的。这被称为 抽样差异 。如何避免一个随机抽样发现有91%父母还想再要孩子而另一个随机抽样却发现有70%的父母不想再要孩子的情况发生呢,这是一个值得研究的问题。总之,目前只是承认了统计量 将随着样本的变化而发生变化。
针对上述不同的随机抽样可能出现结果差异的问题,随机抽样的第二个特性拯救了我们。可以说这一个特性相对消除偏性的特性更为重要。可以想象,我们不仅仅抽取了两个父母SRS,而是抽取了成千上万的SRS。我们每次抽到一个样本的时候,我们都会向那些父母们询问他们是否还想再要孩子。那些回答“是”的父母所占的比例就是这个样本的统计量 值。最终我们获得了成千上万个 值。这些数值具有一个有规律的分布模式,这个分布模式可以使我们认识到 作为未知的总体比例p的一个估计的可靠程度有多大。
抽样差异和抽样分布
抽样差异: 如果反复从同一个总体中抽取多个样本,则一个样本统计量在不同的样本中将有不同的数值。
抽样分布 :如果从同一个总体中抽取了大量的样本,则一个来自单纯随机抽样样本的样本统计量具有一个可以预测的抽样差异模式。这个统计量的抽样分布就描述了这个模式的特点。
例9 一个抽样实验 。为了说明一个统计量的抽样分布,还是先来做一个实验。假设事实上正好有80%的父母(无论是Ann Landers或者《每日新闻》)还想再要孩子。也就是说,在总体父母中这个真正的比例是p=0.80。假设在这个父母总体中抽取了许多容量为1 373对父母的单纯随机抽样样本。在第一个样本的1 373对父母中,有1 100对父母称还想再要孩子。那么这个样本的比例是
在第二个样本中有1 090对父母还想再要孩子。那么其比例是
接下来的几个样本所给出的比例是0.8347,0.7786,0.7917等等。此时已经能够确信,尽管不同的样本有不同的 值,但是这些数值都很接近总体数值p= 0. 80的水平。这些样本中没有一个样本给出了相对总体比例差异较大的p值。
持续地从这个总体中抽取了1 000个单纯随机抽样样本,而且每一个单纯随机抽样样本的容量都是1 373。这样就获得了1 000个样本比例 值,这个数量已经足以能看清楚继续进行抽样时 值的变化情况。图1-2用图的形式显示了这个结果。
图1-2 从同一个总体中抽取1 000个随机样本的结果。本图是当总体比例是p=0.8时,样本比例 的抽样分布图
图1-2的每一个柱状的矩形底部覆盖了一个可能的 值范围。柱状矩形的高度表示在1 000个样本中有多少样本具有该范围的 值。例如,图中最高的柱状矩形显示的是在这1 000个样本中有192个样本的 值是在0.795~0. 80之间。图1-2显示了多个样本的统计量的 值,以及样本出现每一个数值的频率高低。也就是说,图1-2显示了 的抽样分布。如果仔细观察图1-2,将发现以下内容:
没有偏性。 值的中心非常靠近总体参数p= 0.80的水平。虽然作为p值的一个估计的统计量 在一些样本中数值过高,而在另一些样本中数值又过低,但是抽取多个样本时,其数值并没有倾向于总是过高或者总是过低的情况。这表明了在单纯随机抽样中不存在偏性问题。
差异小。 所有的样本的 值都在0.765~0.840之间变动。如果80%是这个总体的真实数值,那么一个容量是1373的SRS样本几乎从来不会使其推测数值低于75%或者高于85%。另外,在这1 000个抽样样本中有654个样本的 值是在0.79~0.81之间。这很明显地表明,绝大部分容量是1 373的单纯随机抽样样本将给出一个波动范围在真实值1%以内的估计数值。
简而言之,抽样分布显示,如果能够相信一个容量是1373的单纯随机抽样样本,则几乎所有容量是这个水平的单纯随机抽样样本都能够给出与其总体真实值相接近的结果。在这个抽样实验中,假设知道其p值是0.8,但是对于任何p值来说,情况都是相似的,都可能知道其数值是多少。样本统计量 作为p值的一个估计很少与p正好相同,但是其数值是以这个真实的p值为中心的,并且绝大多数样本所给出的数值是非常靠近p值的。
在现实操作中,通常仅选择一个样本。我们需要有把握地做到从我们一个样本中得到的统计量与总体的真实参数是接近的。那么我们仅仅做到不存在偏性还是不够的,也就是说我们需要几乎所有的样本都能够给出与总体真实数值相接近的结果。你可能会猜测到,容量大的样本比容量小的样本更令人信服。
例10 使用小容量的样本会发生的情况 《每日新闻》能不能为了节省开支和工作量而访问少于1 373的受试者呢?图1-3就回答了这个问题。下图的抽样容量仍然是1 373,抽取1 000个样本得到的样本比例的抽样分布图。图1-3与图1-2相同,只是图1-3的样本比率的区间比图1-2的样本比率区间大。图1-3第1个图显示的是如果为了节省开支而仅访问了300个人所得到的抽样分布图。两张图具有相同的标尺刻度,因此很容易进行对比。可以发现,小容量样本得出的结果仍然是以总体的真实数值为中心,但是被扩展开了许多。一个容量是300的单纯随机抽样样本相对一个容量是1 373的单纯随机抽样样本的可信程度下降,其原因是容量是300的单纯随机抽样样本更有可能给出一个离总体真实数值较远的结果,进而导致错误。
最后来描述缺乏 可重复性 的事实情况。比如样本所有结果超出了正常范围。事实上,在抽样方法中,缺乏可重复性如同存在偏性一样,也是一种很严重的错误。因为选择一个样本的目的是为了获得有关一个总体的信息,在抽样过程中出现的错误就意味着样本统计量错失了反映总体参数真实数值的机会。任何抽样方法都可能出现两种类型的错误:偏性和缺乏精密度。
图1-3 大容量的抽样样本具有较小的抽样变异。该图是样本容量为300(上)和1 373(下)时的样本比率 的抽样分布
可以形象地想象,总体参数的真实数值好比是靶子上的牛眼,而样本统计量就是射向牛眼的一发子弹。在向靶子射出数发子弹后,偏性和缺乏精密度都可以被用来对射击的结果进行描述。偏性意味着射手的视线未对准靶心,所以会始终如一地将子弹射向偏离牛眼的同一个方向。这样的样本数值就不会以总体数值为中心。缺乏精密度意味着重复射出的子弹广泛地散布在靶子上,不集中。重复的抽样样本并没有给出相似的结果,而是出现较大的差异。图1-4显示了用射击的靶子表示的上述这两种类型的错误。
偏性和缺乏精密度
偏性 是样本统计量出现一致重复向同一个方向偏离总体参数的结果。
缺乏精密度 意味着在反复抽样时,样本统计量的数值分布广泛或者是分散。抽样结果不能够重复。
为了降低偏性 ,可以使用随机抽样。在抽样列表列出了总体中的所有个体后,单纯随机抽样样本可以产生不存在偏性的估计值,即从一个单纯随机抽样样本计算得到的统计量的数值与总体参数值相比既不会一致地偏高也不会一致地偏低。
为了提高一个SRS的精密度 ,可以使用一个大容量样本,通过选择一个足够大的样本来提高精密度。
图1-4 在抽样中的偏性和缺乏精密度。图中牛眼代表有关总体的真实数值,子弹孔代表着重复抽样的结果。
应注意的是,高精密度(重复的射击点相互靠得很近)是可以伴随高度偏性(射击点一致地向同一个方向偏离牛眼)出现的。同时低偏性(射击点是以牛眼为中心的)也可以伴随低精密度(重复的射击点广泛地散布在靶子上)出现。一个好的抽样方案就好比是一个好的射手,其结果一定是低偏性和高精密度的。
即使《每日新闻》抽到的1 373人的样本仍然是所有父母这个总体人群中的一个很小的部分。那么其中的1 373是总体人群的100个之中的1个或者是5万个之中的1个是否会对调查结果产生影响呢?答案是:不!
总体容量的大小不影响结果
如果总体容量远远大于样本容量,那么来自这个随机样本的统计量的精密度并不依赖于总体容量的大小。
为什么总体容量的大小对来自随机样本的统计量几乎没有影响呢?可以想象在对收获的玉米进行抽样时,收集样本的收集铲并不知道自己周围是被一麻袋玉米粒所包围还是被一整卡车的玉米粒所包围。如果玉米粒是充分混匀的(这样收集铲选择的是一个随机样本),那么检测结果的差异仅仅取决于收集铲的容量大小。
选择容量是1 373人的样本具有高精密度,这是因为样本容量很大。那么这个样本仅仅包含了总体中的每5万个中的1个的规模对调查结果是没有影响的。因此,几乎可以确信的是有将近91%的美国父母还是想再要孩子,这与Ann Landers的结果相反。
然而,一个样本统计量精密度取决于这个样本的大小而不是总体容量的大小的事实,对于任何一个计划在一所大学或者一个小的城市中进行一次营养与健康状况调查的人来说却是一个坏消息。例如,为了调查2006年中国青海省大学生营养与健康状况所抽取单纯随机抽样样本容量的大小,与为了调查2006年中国大学生营养与健康状况而抽取的单纯随机抽样样本容量一样大,才能够保证两个SRS结果具有相同的精密度。2006年中国青海省高等学校在校学生(包括本科和专科学生)数量是35 983人,而2006年中国高等学校在校学生超过1 700多万,但是这种总体数量的差异并不意味着对于总体人数较少的青海省大学生来说抽取一个容量较小的单纯随机抽样样本就可以获得精密度相似的结果。
这一部分有一个重要的观点:为了描述一个抽样样本可以信赖程度的大小,提出问题“如果从同一个总体中抽取大量的样本,其结果将是怎样的?”假如几乎所有的样本所给出的结果都与真实的结果接近,那么就能够相信任何一个抽样样本,即使我们不知道它是否接近真实结果。抽样分布描述了抽取大量样本的结果。使用一个大容量的SRS样本可以确保几乎所有的抽样样本都将给出准确的结果。
练习1.10 ~练习1.13中出现的粗体数字要么是一个参数,要么是一个统计量。在各种情况下,请说明它是参数还是统计量?
1.10 为全面掌握中国国民体质现状和变化规律,推动全民健身活动的开展,促进国家经济建设和社会发展,2005年,根据《中华人民共和国体育法》,国家体育总局、教育部、科技部、国家民委、民政部、财政部、农业部、卫生部、国家统计局、全国总工会10个部门联合在全国31个省(区、市)进行了第二次国民体质监测工作。本次监测从全国近3 000个机关、企事业单位、学校、幼儿园、行政村抽取和测试了494 524人,在参加测试的人群中国民体质优秀率达到 13.8% 。
1.11 有一批石英比色杯,它们的平均厚度是 0.500cm 。这个平均值是在买家接受这批货所要求的技术指标范围之内的。检查人员恰巧从这批货中检查了100个比色杯,其平均直径是 0. 503cm 。这个平均值超出了其技术指标范围,所以这批货就被错误地拒绝了。
1.12 图1-5显示了一个样本统计量在4种情况下的抽样分布。这些图形与图1-2和图1-3相似。也就是说,这些柱的高度显示了在来自同一个总体人群的许多抽样样本中这个样本统计量取各个数值的频率。总体人群参数的真实数值被标记在每一个图形中。对图1-5中的抽样分布中的每一个进行标识,看它们分别是具有高或者低的偏性?具有高或者低的精密度?
图1-5 练习1.12中的4个抽样分布图形
1.13 一名管理专业的学生正在设计一项研究,它是关于在校大学生对上学期间从事业余工作态度的研究。这名学生设计了一份调查问卷,计划随机选取的25名学生予以填写。她的指导教师审定并通过了这份问卷,但是建议将调查样本大小至少增加到100名学生。为什么要抽取较大的抽样样本?
1.14 一个抽样实验。演示从一个小的总体人群中抽取一个小的样本过程中产生的抽样变异性。在如下所列出的25名俱乐部成员中有10名是女性,她们的名字旁边有星号。这家俱乐部要随机选取5名成员免费去参加全国大会。
(a)利用附录1表1中不同的部分抽取20个容量是5的单纯随机样本。记录这20个抽样样本的每一个样本中女性成员的数量。制作一个类似图1-2的图形来显示结果。在这20个抽样样本中,女性成员的平均数量是多少?
(b)如果这5张票中没有一张发到了女性手中,那么你认为这个俱乐部的成员们将要怀疑是否存在性别歧视吗?
1.15 模拟。随机数字可以被用来模拟随机抽样的结果。假设你正在从大量的高中学生中抽取容量是25人的单纯随机样本,并且这些高中学生中有20%的人是肥胖中学生。为了模拟这个SRS,我们让附录1表1中的25个连续的数字代表你的样本中的这25名学生。其中数字0和1代表肥胖的中学生,其他的数字代表体重正常的中学生。这是这个SRS过程的一个精确模拟,因为在10个出现机会相同的数字中,0和1占到了20%。
我们可以通过记录附录1表1中每50行中前25项中0和1的个数来模拟抽取50个SRS样本的结果。请制作一个类似图1-2的图形来显示你的这50个抽样样本的结果。这个总体人群的真实数值(20%的人是肥胖中学生,或者在一个由25人组成的样本中有5人是肥胖中学生)靠近你的图形的中心吗?在你获得的50个抽样样本中,肥胖的中学生人数最小和最大数值是多少?在你的抽样样本中有4个、5个或者6个肥胖中学生的百分比是多少?