运动人体科学研究中的数据处理与分析最新章节_崔玉鹏著

5现实生活中抽样碰到的问题

如果随机抽样消除了偏性并且能够控制结果的精密度，那么为什么人们还是能够持续不断地在学术期刊或者报纸上读到有关对某些调查研究结果的质疑以及对美国总统大选前民意测验结果是否可信的争论呢？事实上，现实世界中的抽样相对教科书练习中的那些从一个人名列表中抽取一个SRS样本要复杂得多，而且不可信。可信声明并没有反映实际抽样过程中出现的所有的误差来源。

抽样过程中的误差

抽样误差 是由抽样活动所引起的误差。抽样活动导致抽样样本的结果与（人口）普查的结果不同。

随机抽样误差 是指样本统计量与总体参数之间的偏差，它是由选择一个随机样本过程中的偶然性所导致的。在可信的声明中，误差界限只包括随机抽样误差。

非抽样误差 是与从总体中选取一个样本活动无关的误差。非抽样误差在一次（人口）普查过程中也会出现。

大多数样本调查会遭到一些误差的破坏，而不仅仅是随机抽样误差的影响。这些误差的出现会导致偏性的发生，并进而使可信声明变得毫无意义。好的抽样技术包括了降低所有误差的艺术方法，这种艺术方法的一个重要组成部分就是 统计科学 ，这其中就包括随机抽样和可信声明。然而，在现实生活中，好的统计方法并不是像好的抽样样本那样总是可以找到。下面介绍在抽样调查过程中的误差来源以及抽样的组织者是如何解决的。

抽样误差

随机抽样误差是抽样误差的一种，可以通过选择随机抽样样本容量的大小控制随机抽样误差的大小。另外一个抽样误差的来源是由于使用不好的抽样方法，例如采用自愿响应的抽样方法应避免这些不好的抽样方法。任何一个样本都是从一个包含所有成员列表的总体开始的，这个列表就是抽样列表。通常情况下，获得一个真正列出整个总体名字的列表是很困难的。如果这个列表省略了某些类的人群，那么即使是来自这个列表的随机样本也是存在偏性的。

例14 电话抽样 。在美国，大多数样本调查是通过打电话而不是面对面地访问完成的。使用电话簿充当一个抽样列表将导致严重的偏性。美国许多大城市的电话簿中未列出的电话数目超过了列出的电话数目，这样只拨打列出来的电话将不能代表这座城市的居民。因此，电话民意测验通常采用随机数字播号（Random Digital Dial，RDD）的方法。一个调查机构从一个包括所有电话区域号和前几位数字（一个电话号码的前3位数字）的列表中选择一个样本。然后，RDD设备将随机地选择后四位数字。这项调查的工作人员必须面对这样一个事实，那就是在所有可能的电话号码中有3 /4以上的号码并没有分配给住户，同时也面对另外一个事实，那就是拥有2条电话线的家庭数量不断增加而可能在抽样列表中出现2次。即使是这样，RDD还是接近于实现了对所有拥有电话的住户的随机抽样。

然而，大约6％的美国家庭没有电话。所以这些家庭不会出现在任何电话调查的抽样列表之中。那么这样一个遗漏会导致调查结果有偏性吗。在美国的南方没有电话的家庭百分比例几乎是这个国家其他地区的2倍。那些一个人孤独生活的与其他的人群相比不太可能拥有电话。所以，在电话调查中，其结果往往缺乏对那些南方人和一个人的家庭的代表性。更有甚者，许多电话调查的组织者为了省钱而省略了阿拉斯加和夏威夷地区的调查。由于几乎所有的人都有电话，所以在大多数电话调查中这种偏性并不大。尽管一些偏性是存在的，但是一些调查公布的误差界限中并没有包括这个偏性。

好的电话调查计划了许多对选定电话号码的回访，这是因为一次电话呼叫就能够找到的人可以与那些很难找到的人有不同的观点。例如，调查发现家庭主妇相对家中的男主人更容易通过电话找到。如果电话调查是想获得一些个人观点，那么调查者还必须面对这样一个事实，那就是大多数接电话的人都是女性。据美国纽约时报CBS （Columbia Broadcasting System）新闻调查报道，在他们进行的电话调查中，发现家庭中接听第一访问电话的人中只有37％是男性。为了平衡这种回应，电话调查常常从一个接听电话的家庭中随机地选择一名成年人作为访问对象。

非抽样误差

非抽样误差是那些即使是进行（人口）普查而不是抽样但同样可以导致结果出现偏性的误差。它们包括：记录误差和运算误差等操作误差；被调查者不配合调查工作或者失去联系（不应答）和应答失误所产生的误差，调查问卷自身所导致的误差。例如运算误差是指在一些诸如进行算术运算或者向计算机中录入数据过程中的错误。随着计算机的普及，运算误差相对以前不是那么常见了。

例15 计算机辅助访问 。访问者拿着那种带夹子的书写板的日子已经过时了。目前访问者都是拿着一台笔记本电脑作为面对面访问的记录工具。计算机软件系统可以辅助完成这个访问过程。访问者可以从计算机屏幕上读出问题，同时用键盘录入相关的回答。如在对“你还想再要孩子吗？”这项调查中，一旦访问过程中的应答者说她没有孩子，那么有关她的孩子的其他问题不再出现。计算机可以自动检查应答者对相关问题的回答是否彼此一致，甚至能够随机提出这些问题，这就避免了由于总是以相同的顺序提出问题而带来的偏性。

计算机软件系统还可以管理抽样过程，它可以对应答者进行记录并将其应答内容转变为文件资料。这样将调查问卷上记录的应答结果输入到计算机中这一繁琐的工作就消失了，这一个过程曾经也是运算误差的一个来源。计算机甚至能够安排电话调查过程中的呼叫，充分考虑应答者的时间区间，并履行一些预约电话。

运算误差几乎可以通过足够细致的工作被消除。显然，这是与被调查者不应答所产生的误差情况完全不同。被调查者不应答是非抽样误差的一个最严重的误差来源。

不应答

不应答 是不能够从一个样本选定的个体中获得数据资料。在对人类进行的调查中出现不应答最常见的原因是与某名受试者联系不上或受试者拒绝合作。

目前，不应答是抽样调查中所面对的最严重的问题。人们越来越不情愿回答一些问题，特别是通过电话。计算机之类的回应电话的机器进一步降低了电话调查的回应率。而另一方面，在一些建筑物大门口的看门人阻碍了面对面的访问活动。不应答肯定能够导致样本调查结果的偏差，这是因为不同人群的不应答率相差很大。贫困的人群与中产阶级相比很难交往。在一些大城市和在老年人中访问的被拒绝率通常很高。这样造成的结果就是，由于不应答所导致的偏性是很容易超出可信声明中所描述的随机抽样误差的范围。通过先投递信件的方式提高了电话调查中的应答率，但是不应答并非是许多专家能够完全解决的一个问题。即使是美国（人口）普查也会受到不应答的影响，尽管有政府的巨大财富作为后盾。

例16 （人口）普查计数不足 。美国人口普查组织者每隔10年将按照家庭住址总列表向所有的家庭单位邮寄问卷。1980年，75％的家庭回复了人口普查表；而1990年回寄表格的应答率下降到65％。在纽约，仅仅有53％的表格被寄回。如果不应答不会导致严重的偏差，那么任何调查必须计划细致和保证后续访问。美国人口普查局对没有寄回人口普查表格的每一个地址进行了6次访问。在1990年的人口普查中，这种后继访问在一些中心城市中也没有能够达到那些不回信家庭的20％。作为最后的一个求助方法，美国人口普查局试图从一些家庭的邻居那里得到基本信息。即使是这样，1990年的人口普查还是错失了大约全国人口的1.8％，这其中包括大约3.8％的洛杉矶的居民和大约4.6％的黑人居民。因为在美国，人口普查的这些结果将决定联邦政府分配的援助资金的多少以及国会议员席位的数目，所以这种计数不足会导致法律诉讼案件和关于如何做好今后的人口普查工作的深刻思索。其中的一个建议就是针对未邮寄回人口普查表格的家庭，对其后继访问要更加强烈和迅速，同时也不是对所有这种家庭进行访问，而是选择一个样本进行。回想一下，仔细抽取的样本事实上能够给出相对一个总体调查更加准确的结果。

另外一种类型的非抽样误差是应答误差，它是在受试者给出一个错误的应答答案时出现的。一名受试者可能就他的年龄或者收入情况撒谎；或者当被问到他上周抽了几包香烟的时候，他可能记错了数目；或者是一名受试者对问题并不理解可能会猜测一个答案。询问受试者在一个固定时间阶段的行为活动的问题特别易于引发由于错误的记忆而出现的应答误差。例如，许多人不记得上一年去找过多少次医生。这实际上是在全国健康调查中的一个问题，通过核对健康记录发现，人们往往记不住他们拜访医生的60％的记录。敏感问题也是容易出现应答误差的，正如同下面的一个例子显示得那样。

例17 奥运效应 。中国北京获得了2008年第29届奥运会的主办权，全中国人民，甚至是全球华人的奥运意识、运动健身的意识都迅速提升。对中国居民展开的有关奥运知识和健身运动的参与状况的调查都得到了令人吃惊的高比率的结果。在这些调查样本中的居民中，不乏有奥运知识匮乏者，但是如果他们承认自己缺乏奥运相关的知识，就可能表现不出自己的爱国热情。这也就产生了应答误差。

所提问题的用词

对一个抽样调查结果产生影响的最后一个因素是问题的确切文字表述。用恰当的文字将一些问题表述得清清楚楚是一件困难的事情。美国一项询问“股票拥有者”的调查发现，大多数的大农场经营者都拥有股票，尽管这些股票可能不是在纽约股票交易所交易的一样。另外，对于问题的文字表述方面的一些细小变化就能够显著地改变应答结果。美国只有13％的成年人认为我们在“帮助贫困人群”方面花费太多，但是有44％的人认为我们在“社会福利”方面花费的钱太多了。由此可见，对于同一个政府划拨的资金，“帮助贫困人群”和“社会福利”的不同表态将产生不同的社会反响。

问题的文字表述总是会影响回答。如果问题的文字描述是偏向于一种应答而反对其他的，就导致另外一个非抽样误差来源即 调查问题表述非中性误差 。一种最常见的调查，那就是问受试者是否支持一项政策的出台，这项政策将被作为实现某个预期结果的一个手段。“为了降低暴力犯罪率，你是否支持禁止个人拥有手枪？”和“为了降低暴力犯罪率，你是否支持增加死刑？”是一些能够得到那些担心犯罪的人群积极应答的问题。下面是一个带有倾向性的问题对结果产生影响的例子。

例18 吸烟有害身体健康 。吸烟有害身体健康是大家都知道的事情，但是在公共场所是否应该限制或者禁止吸烟是一个长久以来存在的问题。下面是针对这个问题的两个民意测验问题。

我们是否应该通过相关的法律条文来保护公众的身体健康，禁止在公共场所吸烟？

我们是否可以通过法律条文来维护不吸烟者的权益，让公共场所成为一个无烟区域？

第一个问题几乎就是要求一个“是”的回答，而第二个问题以一种更加中立的方式提出这个问题。在一个全国范围内的随机抽样样本中有80％的人对第一个问题回答“是”，而只有40％的人在被问到第二个问题时希望公共场所禁止吸烟。

不同群体使用有倾向性的问题和自愿应答样本的情况在不断增加，应该忽略这些结果。那些希望获得真实信息的民意测验者在进行大样本的调查之前应该在较小的人群中对他们的问题进行检测，同时也应咨询一些心理学家，因为心理学家能够理解人们的行为从而有助于使调查问卷中出现的问题表述清楚和中性。

在相信一个调查研究或者民意测验结果之前你应该提出的问题

如果调查研究或民意调查的组织者使用了好的统计技术，努力地准备了抽样列表、问题的文字表述并降低了不应答率，那么这些民意测验和其他一些样本调查是可以为人们提供一些准确的有用的信息。然而，许多调查特别是那些所设计的问题能够影响公众观点而不是仅仅记录这些观点的调查并不能给出准确和有意义的信息。下面是在关注调查研究或民意测验结果之前应该提出的一些问题。

▶谁完成的这项调查研究？即使是一个政党也应雇佣一家专业的样本调查机构或者公司，这个机构或公司为了自己的名誉也会遵循好的调查操作程序。

▶调查的总体是什么？也就是说，要寻求哪一部分人的情况？样本是如何抽取的？请看有关随机抽样的叙述。

▶样本的大小如何？对调查结果的精密度进行检测是更好的选择，诸如所有抽样样本的95％置信区间的误差界限。

▶应答率是多少？也就是说，在原始受试者中真正提供信息的百分比是多少？

▶如何与受试者进行联系的？通过电话、信件、面对面的访问？

▶调查是在什么时间进行的？调查是否是在某些可能影响人们观点的事件刚刚发生之后进行的？

▶具体的问题是什么？

重大的民意测验、学术调查研究中心和政府统计办公室的官员在宣布一个样本调查的结果时将回答上述的这些问题。报刊的编辑们和新闻播报员有一个坏习惯，那就是他们往往会删去一个调查中那些枯燥无味的事实而只报道这个样本结果。应该说，一些利益集团、电视台和报刊所做的许多样本调查不对上述这些问题作出回答，这是因为他们的调查方法事实上是靠不住的。如果一位运动人体科学专业的研究人员、一个广告或者是当地电视台公布了一项调查研究或民意测验的结果，而没有提供完整的信息，那这个结果是值得怀疑的。

练习5

1.22 下面哪一个是抽样误差的来源，哪一个是非抽样误差的来源？解释你的回答。

（a）当被问到问题时，受试者撒了谎。

（b）在记录数据资料时出现了打字录入方面的错误。

（c）数据资料的收集是通过要求人们邮寄印刷在一份报纸中的一个优惠卷。

1.23 在一个样本调查中，下面的每一项都是误差的一个来源。哪些为抽样误差，哪些为非抽样误差？并解释你的答案。

（a）电话簿被作为一个抽样范围。

（b）在3次电话呼叫中都未能联系上的受试者。

（c）采访者在大街上对人们进行采访。

1.24 犯罪数据资料。犯罪有多么严重？美国的FBI （Federal Bureau of Investigation，美国联邦调查局）每年发表的《美国的犯罪》中显示，1992年发生了93 825起强奸案。FBI的数据资料是由当地的执法机构报告给FBI。有关犯罪的数据资料的另外一个重要的来源是全国犯罪受害者调查，它是一个全国范围内大约由50 000个家庭组成的随机样本。这项调查询问人们是否曾经是一项犯罪的受害者。根据这项调查，在1992年有141 000±6 000起强奸案发生。在《美国统计学摘要》中，这两套数据资料几乎是并排出现的。

（a）为什么在全国犯罪受害者调查中报告了比FBI多的强奸案的发生？

（b）FBI的数据资料不能够附加任何抽样误差界限，为什么？

（c）数据资料的每一个来源都有可能受到非抽样误差的干扰。对于FBI的报告，一些非抽样误差的重要来源是什么？对于全国犯罪受害者调查呢？

1.25 营养与健康调查的质量控制。对于白领阶层中谁更关注自己的营养与健康状况的调查发现，女性超过男性接近2:1的比例关系，这是一个令人吃惊的结果，因为在这之前较早的调查所给出的男女的比例接近1:9。后来在这项调查研究中，我们又发现了如下信息：

详细的调查问卷被组织者在因特网上通过“E－mail”的形式发给了超过13 000个白领阶层的被调查者；共收到1 468个可用的回复。根据研究人员最终获得的结果，误差界限是2.8％，置信水平是95％。

（a）这项调查的回应率是多少？（回应率是在计划的样本中做出回应的人的百分数。）

（b）你是否认为，较小的误差界限是对这项调查的准确性的一个好的测量？解释你的答案。

1.26 协助自杀？1995年，美国的《周末杂志》印刷了如同一个箱子样的广告内容。白纸黑字写得很清楚，通过拨打下面列出的不同的电话号码表明你的立场。一个电话呼叫将花费50美分。你是否认为这个民意测验的结果是可信的吗？解释你的回答。

1.27 电视评估。收集数据资料的方法将会影响样本结果的精确性。人们使用了如下方法收集一个家庭样本收看电视情况的数据资料：

（a）日记方法。一个家庭对其一周中所观看的电视节目和谁观看了这些节目作一个日记，然后在这个周的周末将日记寄回。

（b）名册回顾方法。向被调查者出示一个上一周电视节目的名册，并询问他们观看了哪些电视节目。

（c）电话巧合调查方法。调查公司在一个特定的时间给一些家庭打电话，并询问他们电视是否正开着，正在观看什么电视节目，以及谁在观看这个节目。

（d）自动记录仪方法。将一个自动记录仪器连接到电视机上，它可以记录电视机是在什么时间打开的，以及收看了哪些频道。在这个周的周末将记录仪取下来。

（e）个人测量方法。给一个家庭中的所有成员都分配一个手持的遥控器，遥控器上有编好数字顺序的按钮。研究人员要求这个家庭中的每一名成员开始或者停止观看电视时就按下按钮。这个遥控器会向连接电视机的一个设备发出信号，这个设备可以记录电视机播放的频道和一直在观看节目的人是谁。

请对上述每一种方法的好处和弊端进行讨论，特别是与每一种方法相关的错误来源。美国著名的Nielsen全国评估使用了方法（e）。当地电视台（全国有200多个当地电视市场）的各种评估使用了方法（a）。你赞同这些选择吗？（不必讨论这个样本的选择，只是针对在这个样本一旦被选择后的数据资料的收集。）

1.28 自己设计一个简单的样本调查。你希望确定你们学校的学生是否认为吃早餐和取得平衡的饮食对人体健康有明显的影响。你将选择一个包含200名学生的SRS样本。

（a）准确的总体人群是什么？（是否包括非全日制学生和研究生？）

（b）你将如何划定一个抽样范围？

（c）你将如何与受试者联系？（那种挨个门的敲门访问在学校住宿大楼中是否被允许？）当你不能够与一个受试者取得联系时，接下来你将采取什么措施？

（d）你将在调查中询问哪些特殊的问题或者是普通的问题？

1.29 对于如下准备作为一个样本调查中的各个问题进行评论。它们是否存在不清楚或者存在偏见等问题？

（a）在过去的几年中，北京市肥胖的小学生人数是增加了、减少了或者保持在相同的水平？

（b）下面这些有关北京市家庭轿车的发展与环境污染控制的观点中，哪一个能最好地代表你的观点？

①政府应该限制家用轿车的迅速发展。

②我们有能力改善北京的环境污染问题，可以敞开发展家用轿车。

（c）从环境恶化的不断加剧和严重的资源消耗的预测角度讲，你是否赞同对于一些资源密集型的消费品循环利用进行经济上的鼓励呢？

1.30 许多受试者对于一些有关违法或者在其他一些敏感行为的问题方面不愿意给出诚实的回答。美国的一项研究将由许多白人组成的一个总体随机分成3组。所有的受试者都被问到是否曾经使用过可卡因。第一组受试者是通过电话被访问的，其中有21％的人回答是。在另外一组受试者中，他们是调查者到家中登门拜访的，其中有25％的人回答是。最后一组受试者也是在家中被访问的，但是他们是通过一个密封的匿名信封的形式对这个问题做出回答的。在这组受试者中，有28％的人回答说他们曾经使用过可卡因。

（a）上述的这几个答案中，你认为哪一个与实际情况最接近？为什么？

（b）请列出你认为在一个电话调查中将被隐瞒的3个其他的行为。