科学研究中所需的资料都有具体的来源渠道和搜集方法,不同的资料,其来源渠道和搜集方法会有差异。一般来说,资料的搜集涉及多个环节,在整个资料搜集过程中,往往会带来一定的数据误差。
统计资料最初始的来源主要是调查或实验,这实际上体现的是资料的搜集方法。
调查资料是通过调查、观测而得到的资料,这类资料是在没有对研究对象进行人为控制和人为干预的条件下得到的,只需要到现场对已经显示的结果、客观存在的状况进行观察、调查即可。例如:想要得到10位高血压患者的血压值,调查者只是通过对研究对象血压的测量得到相关数据,并没有对其做任何的干预和控制。比较有代表性的大型调查是第四次中国居民营养与健康状况调查,这次调查包括询问调查、医学体检、实验室检测和膳食调查四个部分,其中膳食调查23463户(城市7683户、农村15780户)、69205人,体检221044人,血压测量153259人,血脂测定94996人,血红蛋白测定211726人,血糖测定98509人,血浆维生素A测定13870人,无论是以上哪个部分的调查所获得的资料,都是调查资料,都是客观调查的结果,没有进行任何的人为干预和人为控制。近年来,调查工作在各个专业领域都得到普遍采用,如心理学领域的认知调查、医疗卫生领域的疾病调查、卫生服务调查、营养调查、社会领域的人口调查、经济学领域的收入调查等。就医学研究而言,主要包括三种调查:横断面研究、病例对照研究、队列研究。
实验资料是通过进行人为干预和人为控制而得到的资料。例如:观察某种药物对高血压的治疗作用,对研究对象实施的干预措施为服用某种药物,然后测量血压值,通过这种方式收集的资料为实验资料。在卫生管理领域比较著名的实验研究是兰德健康保险实验(Rand Health Insurance Experiment),该实验的目的是通过现场对照实验,探讨不同的健康保险方案对居民卫生服务利用、卫生费用及健康的影响,该实验从1974年11月开始到1982年1月结束,耗时较长,在美国华盛顿州的西雅图、俄亥俄州的达顿、马萨诸塞州菲奇堡和富兰克林县、南卡罗莱纳州的查理斯顿和乔治顿县六个地区,随机抽取了2756个家庭(计7706人),将这些家庭随机分配到14个保险方案组中,通过搜集相关实验资料并进行分析,探讨医疗保险对居民的影响。
误差是指观测值与真实值之差以及样本统计量与总体参数之差。在科学研究的每个阶段都有可能产生误差,无论是调查研究还是实验研究都可能产生误差。对于调查研究来说,数据的误差主要包括两类:抽样误差和非抽样误差。对于实验研究来说,数据的误差主要包括:抽样误差、系统误差(选择性偏倚、测量偏倚、混杂偏倚)和过失误差等。
1.抽样误差(sampling error) 是由于抽样的随机性导致的样本指标(例如样本均值)与总体指标(例如总体均值)之间的误差。例如,一个由10000名学生组成的学校,假设测量的学生平均身高为170cm,但是在一次研究中,由于人力、财力、物力、时间等多方面的限制不可能对10000位同学逐一测量身高,在这种情况下就不得不采用抽样调查的方法,从10000人中随机抽取一部分人(假定为100人)进行研究,测量这100人得到的平均身高为168cm,这个2cm的误差就是由于抽样的随机性带来的,即抽样误差。
抽样误差的大小与多方面因素有关。最明显的是样本量的大小,样本量越大,抽样误差就越小,当样本量大到与总体单位相同时,这时已不存在抽样问题,抽样误差便减小到零。抽样误差的大小还与总体的变异性有关,总体的变异性越大,即各个体之间的差异越大,抽样误差也就越大,因为有可能抽中特别大或特别小的个体,从而使样本结果偏大或偏小;反之,总体的变异性越小,各个体之间越相似,抽样误差也就越小,当总体中各个体之间没有差异,这时的抽样误差为零。
抽样误差产生的前提条件有两个:一是抽样,二是个体之间有差异。只要满足上述条件,抽样误差是不可避免的,但抽样误差是有一定规律的,可以进行适当的控制,并估计其大小。
2.非抽样误差(non-sampling error) 是相对抽样误差而言的,是指除抽样误差之外的,由于其他原因引起的样本指标与总体指标之间的差异。抽样误差是一种随机误差,只是存在于概率抽样中,而非抽样误差则不同,无论是在概率抽样、非概率抽样等抽样调查中,还是在全面性调查中,都有可能产生非抽样误差。在调查的设计阶段、调查阶段和分析阶段都可能产生非抽样误差。非抽样误差主要包括以下几种类型。
(1)抽样框误差 抽样框是概率抽样中有关总体全部单位的名录。如在有关学生身高的抽样调查中,全部学生的花名册就是抽样框,抽样框是样本选择的依据。理论上,抽样框中的单位和研究总体中的单位是完全一致的。例如,在某个学校中抽取一个学生样本,抽样框是该校所有学生的名单,这时,该校所有学生的名字都在抽样框中有所反映,抽样框中的所有名字又确实是该校目前在校注册的所有学生,这时,就存在一一对应的关系。但是现实中,经常出现抽样框中的单位与研究总体中的单位不一致的现象。在刚才的抽样中,如果学生的名单是去年的,那么新入学学生的名字没有在名单上反映,而名单上的学生有些已经毕业,这时,抽样框中的单位与研究总体的单位就不存在一一对应的关系,使用这样的抽样框抽取样本就会产生误差,导致结论出现错误。我们把这种由于抽样框的不完善或不准确而造成的误差称为抽样框误差。
(2)无回答误差 是指数据的丢失,调查人员没有得到全部样本的数据,而丢失了部分样本的数据。如现场调查时被访者不在家或者拒绝接受调查,电话调查中没有接听,邮寄问卷调查中被调查者未收到问卷或虽然收到问卷却把问卷遗忘或丢失等情况。
产生无回答误差的原因有很多,归纳起来有以下几点:①抽样遗漏:就是抽样过程中没有抽到一些本应调查的抽样单位,或者已经抽到这些单位,但是由于各种原因没有得到数据,这在邮寄调查、电子邮件调查、网络调查中最普遍。②无法查找到被访对象:无法查找最主要的原因是被访对象的地址不确切、已经迁移、调查期间家中无人。③虽然已经接触到被访者,但因为种种原因无法进行调查,主要表现为拒绝调查、因健康原因无法调查等。
(3)测量误差 主要是指由于工具不够精确或人为因素导致的误差。主要分为三类:①调查方式设计产生的测量误差:由于问卷设计不合理,导致被访者理解出现偏差是比较常见的调查方式设计而产生的测量误差,例如,问题表达有歧义、问卷过长而产生回答疲劳、问题涉及个人隐私故意虚假回答、问题的回答需要长久的回忆导致错误回答、措辞带有诱导性等。在调查咨询方面取得极大成功的盖洛普十分强调问卷设计中的用词,用词的不同可能导致调查结果的截然不同,如著名的Rugg试验,问题甲:“您认为美国应当禁止反对民主的公开言论吗?”其结果是54%的赞成;问题乙:“您认为美国应该允许反对民主的公开言论吗?”结果是75%的不赞成。②调查执行过程中产生的测量误差:主要是调查者或被调查者在调查过程中有意无意导致的数据失真,例如,笔误、记忆错误、理解错误等。对于调查员导致的误差,主要通过对调查员的挑选、调查员的培训、加强督导员的调查专业水平等方式来减少误差的发生。③其他测量误差:如数据处理过程中发生的误差等。
1.抽样误差 在实验研究中,同样存在抽样误差,由于生物固有的个体差异的存在,抽样误差不可避免。如某研究者随机抽取了50名贫血儿童家庭,实行健康教育干预半年,研究干预前后儿童的血红蛋白的变化,该研究同样可能存在抽样误差。
2.系统误差(systematic error) 也称为偏倚(bias),是指在观测过程中,由于各种试验条件(如受试对象、研究者、仪器设备和研究方法等非试验因素)所造成的有一定倾向性或规律性的误差。如仪器初始状态未校正到零、标准试剂未经校正、观察者的操作技术与观察习惯、诱导性提问等因素所致误差。系统误差的特点是测量结果往往向一个方向偏离,其数值按一定规律变化,具有重复性、单向性。我们应根据具体的实验条件与所产生的系统误差的特点,找出产生系统误差的主要原因,采取对应措施降低或消除它的影响。
按照实验研究的过程,偏倚可以分为三类:选择性偏倚、测量偏倚、混杂偏倚。
(1)选择性偏倚 在选择研究对象时,实验组和对照组的设立不正确,纳入标准和排除标准没有设置好,使得这两组研究对象在开始时即存在处理因素以外的重大差异,从而产生偏倚。
(2)测量偏倚 又称信息偏倚,是指在研究过程中,由于测量仪器未校准或操作不规范等因素导致出现较大的误差,这与效应的指标的选择也有一定的关系。有的效应指标的变化与生物钟有关,例如某个生理指标在上午的观察值与下午的观察值有明显不同的趋势。一般采用随机先后顺序的方式控制测量偏倚。
(3)混杂偏倚 由于一个或多个潜在混杂因素的影响,导致处理因素与效应指标之间的统计结果产生混杂偏倚,从而影响结论。例如研究吸烟与肺癌的关系,性别是混杂因素,性别与肺癌有关,性别与吸烟暴露有关,若性别在比较组中分布不均衡,研究将出现混杂偏倚。
在设计阶段为控制混杂偏倚可采用:①限制:针对某个或某些可能的混杂因素,对研究对象的入选条件予以限制。②随机化:使研究对象以等同的几率分配在各处理组中,从而使潜在的混杂因素在各组间分布均衡。③配比:指对比较组的选择,使其针对一个或多个潜在的混杂因素与指示研究对象相同或接近。
3.过失误差(gross error) 是指由于观察过程中的失误造成的错误判断或记录。如读数错误、小数点遗漏和数据记录时填错位置等。过失误差往往具有明显的异常性,可通过认真检查核对来消除。