病例对照研究本质上是比较两组研究对象的健康影响因素或暴露情况,其中一组对象出现某种结局,而另一组对象没有出现该种结局。
如果主要考虑研究结果的外推性,那么一般人群是选择病例和对照的理想人群。如果主要考虑验证暴露-结局的因果关系,那么可以从队列中选择病例和对照。如果资源有限,且能尽量控制各种偏倚,那么可以从医疗机构的患者及其家属中选择病例和对照。
严格选择研究对象可以保证研究的有效性。病例的选择决定了对照的选择。定义和选择病例是病例对照研究的第一步,对随后的各个步骤均有影响。
通过病例对照研究寻找证据,还需要考虑疾病分类的问题。疾病的分类主要依据确定病因或征象的标准。石棉沉着病、结核病和创伤后应激障碍是根据病因分类的疾病,这些疾病有特定的致病因素或暴露源,如石棉、结核分枝杆菌和重大创伤。肺癌、风湿病和精神分裂是根据征象分类的疾病,这些疾病具有临床或病理学上的体征、症状或其他疾病表现。随着人们对疾病认识的加深,疾病的分类也会改变。如果发现某种根据征象分类的疾病的病因,就可以把这种疾病归为按病因分类的疾病。例如,研究人员最初用征象分类法把艾滋病描述为“获得性免疫缺陷综合征”,在发现人类免疫缺陷病毒后,则按病因分类法把艾滋病称为“艾滋病病毒感染”。
按病因分类的疾病都有确切的致病原因。例如,伤寒沙门菌是伤寒的病原,从而界定了该疾病。然而,征象不一定是确切的病因。例如,饮酒是肝癌的主要致病因素,但是肝癌也可能由饮酒外的其他因素所致。肝癌的诊断是依据临床和病理学的指标,而非是否暴露于某种致病因素。流行病学中的许多致病因素并不一定致病。例如,高血压可能是冠心病的主要致病因素,但是如果一个人仅是高血压,不一定会患冠心病。因此,对按病因分类的疾病进行病例对照研究,通常关注一组因素,而不是明确的病因。对石棉沉着病或结核病进行病例对照研究时,主要关注的不是阐明疾病与石棉或结核分枝杆菌间的联系,而是评价影响人们暴露于这些病因中的各种因素或者评价影响病原传播的因素。
如何选择病例,由研究问题以及想要检验的具体假设决定。假设暴露于一种新药会导致新的病例,那么选择的病例需要来自于能够获得这种药的人群。通常,研究问题限定了病例的选择。例如,一个旨在研究霍乱户外感染的传播模式的调查,研究人员选择户内的首发病例可能更好,因为同户的其他病例可能是二代感染。
影响病例选择的另一个因素是病例的代表性(即从病例获得的信息能够推及一般人群的程度)。有些问题可能很复杂,研究人员只能针对一般人群中的一个亚人群对问题的某个方面做出解释。例如,研究目的是探索一般人群中放射与肺癌发病的关系,但是实际的研究只能局限于暴露于放射的某个职业人群。因此,病例即从事该职业的肺癌患者,对照是同一职业人群中未患肺癌人群。
回答以下两个问题可以帮助研究人员选择病例:①对研究问题有清晰的定义吗?②病例的定义和研究问题的定义一致吗?
如果研究人员不能清楚界定研究问题,那么他们就不可能清楚描述病例的定义。研究问题的界定涉及问题的性质和广度两个方面。问题的性质说明“问题是什么”。例如,如果针对的问题是过去5年巴尔的摩年轻女性心肌梗死的发病率,而不是巴尔的摩心血管疾病的患病率,那么病例的定义会更加具体。问题的广度反映问题在时间、空间和人群中的分布情况,如问题集中在什么季节、哪些地区以及什么亚人群中。要使研究具有针对性,研究人员首先需要弄清楚问题的性质和广度。描述问题有助于界定病例。一旦界定了问题,研究需要确保病例的定义和问题的定义保持一致。前述例子的病例可以定义为:巴尔的摩40岁以下患心肌梗死的女性。
研究人员需要根据严格的标准定义病例。例如,在定义类风湿性关节炎时,除了参考通用标准外(如美国类风湿病协会的定义),还需要确保病例的定义没有歧义,适用于各种情况。这样,即使选择的病例的来源或条件不同,也能确保选出的病例在临床上相似,且符合定义的要求。使用疾病的标准定义有助于研究人员把研究结果和既往研究发现进行比较。
研究人员需要确定和记录支持病例诊断的证据,以及尽量排除把病例纳入对照组的可能性。在审核诊断数据时,需要评估病例和对照是否做过诊断某种疾病的实验室或病原学检测。为了确定“真病例”,排除“假病例”,研究人员可以回答以下问题:
1.有没有特定病征检验可以确诊病例?人群中有多少人做过这种检验?
根据定义,特定病征检验的阳性结果可以做出确定的诊断。例如,促甲状腺素水平升高可以诊断甲状腺功能减退,空腹血糖升高可以诊断糖尿病。如果患者没有出现这些阳性的检验结果,可以根据其他诊断依据判断患者是否是可疑病例。
2.是否对诊断性的检验结果进行审核?
例如,Antunes等在开展子宫内膜癌与雌激素关系的病例对照研究中,审核了巴尔的摩55个病例的组织学报告和手术报告。
3.如果一些患者的诊断依据不全,应该如何处理?
很多研究在数据分析阶段处理这种情况时,分别对两组诊断确定性不同的患者进行假设检验,比较诊断依据不全患者和确诊患者的分析结果。如果两组的结果相似,则病例和对照被错误分类的可能性较小。
4.如果病原学信息有多个来源,有多种病例诊断的方法,不同检验结果、观察结果和诊断结果的一致性如何?
对该问题的回答,可采用一致性检验的统计学方法进行评价,包括计算Kappa值、AUC(曲线下面积)值、组内相关系数等。
表2-1列出了病例的一些来源,包括现有的医疗保健机构、各类信息系统以及记录患者信息的机构。研究人员可以通过专门调查或筛查发现病例。病例来源会影响研究结果的推论。如果病例来源可以涵盖特定人群的所有可能病例,那么可以推算出整个人群的发病率。由于常规医疗工作和卫生项目需要管理患者,所以病例来源可能比较广泛,但是把各种来源的数据用于严格的科研可能存在一些问题。
表2-1 病例来源
医生通常根据病情的严重性治疗疾病。病情较轻者接近正常人,病情严重者可能失能或不能治愈。在选择病例时,需要清楚界定病例所处的阶段,因为病情轻重可能影响研究人员对暴露-结局关系的评估。例如,Fried和Pearson对接受动脉造影的患者进行研究,评价暴露-疾病联系是否受动脉造影诊断标准的影响。他们发现随着冠心病病情的加重,危险因素的发生率升高。因此,他们认为如果把亚临床或中度冠心病的患者都纳入病例,会削弱对疾病与危险因素关系的评估。因为很多疾病的非典型(或亚临床)病例较多,所以研究人员需要查找并剔除可能被错分到对照中的病例。如果研究的疾病很罕见,错分到对照中的病例会很少,该问题不会很严重。但是,对于类似良性前列腺增生这类常见疾病(70岁以上的男性约三分之一可能患该种疾病),由于临床检查不能把处于亚临床状态的良性前列腺增生的患者排除,把病例错分为对照的问题可能比较突出。
病例对照研究优先选择新发病例,而不是患病病例。患病病例是患病后存活至研究时点的病例。如果存活与是否暴露于危险因素有关,病例选择和暴露测量的过程不一定需要独立,但是对联系的评估可能有一些偏倚。患病率等于发病率乘以病程。如果暴露组和非暴露组的患者的病程没有差别,两个发病率之比(相对危险度=暴露组的发病率/非暴露组的发病率)等于两个患病率之比。例如,如果肺癌患者吸烟会延长生命,使用患病病例可能高估吸烟与肺癌的关系。同样,如果肺癌患者吸烟会缩减生命,使用患病病例可能低估吸烟与肺癌的关系。如果病程不受暴露状态的影响,病例对照研究就可以选择患病病例。如果研究没有选择患病病例,可能基于两个考虑:①难以判断患病病例的暴露是否发生在患病之前。例如,对于长期的慢性病,很难确定暴露与发病的时间关系。②与新发病例相比,患病病例所经历的事件和暴露较为久远,可能导致回忆偏倚。
患病病例的一个优点是,相对容易获得。比起新发病例,研究人员花费较少精力,就可以在各种病例来源和多种方法诊断的病例中找到患病病例。此外,研究人员还需要考虑患病病例的各种情况,如出生时的情况,或者诊断/筛查过程中的其他发现。例如每个人出生时都会有遗尿,遗尿可以作为一种患病状态。病例对照研究关注的可能是某个年龄后出现的持续遗尿及其影响因素。因此,研究的目的不是了解新发遗尿的影响因素,而是探索导致持续性遗尿的因素。几乎所有先天畸形病例都是患病病例,因为这些畸形在出生时就存在。
通过诊断或筛查可以识别出很多疾病的病例。例如,腹腔镜检查可以发现无症状性子宫肌瘤,常规X线检查可以发现腹动脉瘤。
由于病例来源可能有误,有必要评估偏倚影响的大小,即患病-新发偏倚对研究结果的影响。
通常以疾病诊断的日期作为病例的发病日期。然而,有时实际的发病日期可能很难确定,例如慢性病的症状可能在确诊前几个月或几年就已经出现。研究人员需要确保病例在最早症状出现前就已经接触过暴露。
疾病的定义和确诊技术随时间变化。这些变化可能受两方面的影响:
(1)疾病、死因的国际分类系统,或者专业组织或政府机构对疾病重新定义。在数据收集前,有必要回顾这些重新定义,分析这些定义是否会影响病例分类和研究发现。
(2)新技术有助于病例的早发现,不同时期、不同机构可以获得的新技术不同。如果暴露状况会影响疾病的进展和严重性,那么研究人员对风险的评估可能因时期或病例来源的不同而不同。
在定义病例时需要考虑暴露是否会影响病例的定义。这是病例选择的一个主要问题,在以下情形中需要进行这种病因学的考虑:
(1)用病因学定义的病例(如结核病)需要暴露于某个具体的病因中(如结核分枝杆菌)。对病因学定义的疾病开展病例对照研究,目的不是找到主要的致病因素,而是探索病原在特定条件下的传播方式。
(2)为研究暴露与疾病的联系机制,对病例进行调查,了解不同水平的暴露情况或者不同人群的暴露情况。例如,如果研究人员进行霍乱调查的目的是阐明某种来源的水是导致霍乱流行的因素,他们可以只需针对饮用过污染水源的人进行病例对照研究。一旦他们确认霍乱流行的原因正是污染水源,下一步他们应该回答这个问题:为什么饮用污染水的人没有全部感染霍乱?从暴露人群(即饮用污染水的人)中选择病例和对照进行比较,可以发现饮用某些水源的人具有更大的发病风险。需要注意的是,在利用暴露信息界定病例和对照时,病例和对照需要有相同的暴露经历。
(3)选择病例研究主要病因,如吸烟是肺癌的主要病因。如果吸烟会掩盖其他危险因素的影响,研究人员可能需要从非吸烟者中选择病例和对照,从而探索吸烟以外的其他致病因素。
在上述情况中,有关病因的信息可能影响病例的定义。在20世纪80年代,对于是否需要根据暴露的可能性选择病例和对照,学者们有不同的观点。在确定纳入标准时,研究人员希望选择可能接触暴露的病例和对照。如果纳入太多暴露可能性很小的研究对象,暴露与疾病间的联系会变得不明显,比值比(OR)的估计会不准确。例如,某研究关注口服避孕药和末梢血管病的关系,病例和对照来自于特定时期内可以获得口服避孕药的人群。如果有关暴露的信息会影响病例和对照的选择,结果可能会产生偏倚。
(4)排除和纳入标准:如果在定义病例时考虑一些纳入或排除标准(如仅从某个不吸烟的人群中选择病例),那么对照的定义也必须参照完全相同的排除或纳入标准。
如果研究的病例样本很大,而其中的亚人群显示出明显的临床或病理学特征,那么有必要把病例进行分组后对亚人群进行分析,比较亚人群与对照、亚人群与更大范围的病例、亚人群与其他亚人群间的差异,从而了解这些亚人群患病的因素与其他人群有何不同。例如,在关于脑卒中的病例对照研究中,有必要把病例分为出血性和血栓性两类。Hiller等人根据流行病学特征研究了白内障的亚人群,发现“与中心或后囊下白内障相比,皮质性白内障在女性中更加普遍,用增强紫外线B(UVB)射线计数更容易发现白内障的发病部位。”Tung等人对558名组织学确诊的上皮卵巢癌病例和607名对照进行研究,发现不同组织学分型的上皮卵巢癌病例有显著性差异。他们认为,不同组织学分型的上皮卵巢癌病例有不同的致病因素。
对于罕见病,可以使用多种方法进行病例对照研究。为了纳入更多病例,研究人员可以考虑采用新的诊断标准,延长研究时间,或者增加病例来源或研究地区的数量。
研究人员对暴露情况的知晓程度会影响其对疾病的诊断,因此可能产生诊断偏倚。例如,服用雌激素的人可能比未服用雌激素的人得到更细致的诊断和监测。因为一些病例是因为暴露的情况被发现,而不是根据疾病的自然史确定的,这种偏倚可能造成比值比不合理升高。
研究人员在选择病例时,可以参考以下原则:
1.问题的定义会影响病例的定义。
2.考虑选择病例的所有来源和方法。
3.根据通用标准诊断病例。
4.根据不同的诊断水平分析数据。
5.评估患病病例对研究结果的影响。
6.如果暴露对病例和对照的定义与选择有影响,应当评估这种影响的大小。
对照组是病例组的一个参照或比较组,不仅代表未患病或没有研究结局的一群人,还与病例组在同一时期内接触同样的暴露。临床研究可能会比较患者和“正常”对照,为对照组测量一些基线的生理指标,这些指标在一定范围内即为“正常”。Edmond Murphy在一些文章中详细讨论了有关界定“正常”的问题。例如,研究人员对高血压患者测量一些激素水平的变化,比较这些患者和健康志愿者(通常是年轻人)的激素水平值。这样的比较带来的问题是,选择偏倚和混杂因素可能对研究结果产生影响。在病例对照研究中,研究人员需要考虑在选择对照时是否避免了这些问题。
对照的来源人群应该与病例的来源人群相同。为保证选出的对照能够反映未患病人群的暴露情况,对照也需要从病例的来源人群中选择。对照是指受患病因素影响,并可能患病的人群。病例对照研究通过比较对照组与病例组,推论暴露与结局的关系。因此,在选择对照时,要注意对照与病例的可比性。如果对照与病例的可比性好(除了暴露因素以外的其他因素),可以确保研究结果的有效性。
影响对照选择的因素:在进行病例对照研究时,可以采用多种方法选择对照。例如,在对疾病暴发的病例对照调查中,人们按照标准的做法选择邻居作为饮食所致疾病的对照。这些标准做法的优点包括:让非专业人员可以参与调查中的一些环节,使多个疾病暴发的调查结果可以比较。但是,调查中的一些环节和决策需要专业人员完成,从而阐明可疑因素与疾病间的关系。以下是一些影响对照选择的因素:
从相同的数据来源中选择病例和对照,可以确保病例和对照都来自同一人群。如果根据病理检查结果选择病例,那么应该从做过相同病理检查但未患研究疾病的其他群体中选择对照,这样可以确保选择病例和对照的方法是相同的。
有时理论的抽样框架在选择对照的过程中很难随机操作。如果这样,只能根据实际情况,选择替代的抽样框架。
如果病例在人群中的分布较广,研究人员也许不可能在非患者群中找到足够数量的对照。例如,如果病例都是八九十岁的老人,那么很难在这个年龄段的老人中找到未患病的对照。
确定对照人群、选择对照和收集数据都会产生成本,这些成本可能影响研究的开展。
在疾病进展期间的任何时点的非病例都可以作为对照,这种选择对照的方法叫作发病密度(incidence density)选择。此外,在研究期间,可以先选定所有病例,然后再选择对照,这种选择对照的方法叫作累积发病(cumulative incidence)选择。理想的方法是选择病例的同时就选择对照。然而,在巢式或回顾性病例对照研究中,所有的病例已经被选出,不可能用发病密度的方法选择对照。
通常,患有与暴露相关疾病的对照会被排除。例如,在开展慢性支气管炎与吸烟关系的研究时,把肺癌患者从对照中排除是可以接受的。从患多种疾病(非研究疾病)的患者中选择对照时,即使某类患者所患疾病与暴露相关,如果他们在对照中所占比例较小,他们所致的偏倚对研究结果的影响可能并不显著。如果对照仅来自于单独某种疾病的患者,且暴露与该病有一定联系,选择这类患者作为对照可能导致结果有较大偏倚。在医院开展病例对照研究时,这种问题会比较突出。如果研究中的对照可能患有与暴露相关的疾病,需要评估这种偏倚的影响大小,根据具体情况进行分析和处理。
对存活概率较小的病例数据收集的来源可能不同于其对照的数据来源。这类病例的暴露信息主要由他们的熟人提供,有别于存活的对照可以自己提供信息。此外,研究人员还可以通过访谈了解对照组,或者通过他人收集病例信息。值得注意的是,调查方法不同,可能产生偏倚。Howe强调,为死亡病例匹配死亡对照,可以使数据(特别是混杂因素)的质量具有可比性。Howe在一个队列研究中探索随机暴露与肺癌的关系,病例是89名死于肺癌的矿工。这个队列没有关于吸烟的数据(吸烟是该研究的一个主要混杂因素)。Howe选择了213名其他死因(非肺癌)的作为对照。他用死亡病例和死亡对照开展了一个巢式病例对照研究,旨在评估吸烟这个混杂因素的作用。通过访谈死者的熟人收集有关病例和对照的信息。Falbo等人为了研究巴西累西腓市青少年被杀的问题,开展了一个病例对照研究,他们比较了255名不满20岁的被害人和255名邻居对照,病例和对照根据年龄和性别匹配。病例和对照的信息都通过访谈他们的直系亲属收集。
研究人员可通过匹配减少混杂因素对暴露-结局关系的影响。如果匹配的变量较少,那么病例和对照的这些变量的分布应该尽量相似。病例和对照的匹配可以参照随机对照试验,以确保两组研究对象的可比性。由于每次只能匹配很少的混杂因素(如年龄、性别),匹配并不能保证病例和对照绝对可比。即使不进行匹配,研究人员仍然可以通过多因素分析调整混杂因素,减少混杂效应。此外,临床试验还可以通过随机化过程均衡已知和未知的混杂因素。
匹配可以在个体水平或群组水平上进行。个体匹配是通过对每个病例进行匹配使得病例组和对照组具有可比性。为每个病例按年龄和性别匹配一个或多个对照是为了使病例组和对照组的年龄和性别分布相似。如果匹配的变量超过两个,可能很难找到足够数量且符合条件的对照,除非扩大对照人群的范围。
群组匹配也称为频数或类别匹配,病例和对照按某些群组特征进行匹配后具有可比性,但不要求个体水平也具有可比性。群组匹配需事先知道病例组中混杂因素的分布情况,然后选择具有相同混杂因素且混杂因素分布类似的对照组。群组匹配会产生如信息损失、要求样本量较大等问题。
某些因素包含的信息比较多,如果被匹配掉,可能影响研究结果的推论。例如,“职业”既包含一些与职业暴露有关的信息,还包含社会经济地位和生活方式(如锻炼、吸烟)等信息。研究人员在匹配时,不能将研究关注的暴露因素作为匹配因素。有时,一些匹配因素(如生活方式、社会经济地位)可能难以测量和收集。在这种情况下,可以用能间接反映这些因素的变量作为匹配因素。例如,可以用职业间接反映社会经济地位,用教育程度作为营养水平和健康意识的替代匹配因素。
匹配可以提高研究人员对联系的评估精度。有时,某个混杂因素对研究关注的联系有很大的影响,且这个混杂因素在病例和对照中的分布差异很大。这样,暴露-结局联系可能受到混杂效应的扭曲。匹配掉混杂因素可以帮助研究人员发现暴露的真实效应。尽量让病例和对照的混杂因素的分布相似,可以减少混杂效应。
从研究效率看,研究人员通过匹配可以方便地从病例的来源人群中选择对照。例如,如果按照居住地或工作单位匹配,可以从病例的居住地或工作单位就近选择对照。
要保证匹配的质量,研究人员需要注意3个方面:
(1)确保匹配的变量是混杂因素,分析匹配变量与暴露或结局的关系。匹配的前提条件是:假设的混杂因素可以测量,且与暴露和结局均有关系。匹配真正的混杂因素,才能呈现出真实的暴露-结局关系。但如果研究人员能够测量混杂因素,可能不需要对它们进行匹配,因为这些因素可以在分析中进行调整。
(2)决定与病例配对的对照数量。每个病例如果匹配4~5个对照,可以增加研究的效力。但如果病例数很多,可能需要选择足够数量的非病例作为对照。
(3)匹配变量的数量取决于实际情况以及研究人员希望的可比程度。匹配的变量越多,工作量越大。此外,病例和对照的可比性越大,发现暴露-结局联系的可能性越小,因为暴露因素可能被当作混杂因素匹配掉,造成过度匹配。
如果把性别作为匹配因素,需要使病例和对照的男女性别比例大致相等,因此不能分析性别对结局的影响。
对每个病例都进行匹配可能增加研究管理的难度和研究成本。例如,如果研究人员决定匹配性别和年龄,他们需要所有符合条件的对照名单,然后为每个病例都匹配相应的对照。显然,群组匹配比个体匹配更易操作,成本更低。有时很难找到符合匹配要求的对照,使得对照数量减少,可能影响研究推论。
虽然匹配可以提高研究的精度,但是如果匹配的因素不是直接或间接的混杂因素,研究精度反而可能降低。
如果匹配导致选择的对照的暴露分布与来源人群的暴露分布不同,则不应该进行匹配。匹配可能间接影响对于暴露的估计,使得匹配选出的对照中的暴露分布与非患者群中的暴露分布不一致。例如,有学者担心如果匹配过度(如匹配的因素不是混杂因素),特征相似配对的增加,会使研究人员难以发现实际存在的暴露-结局联系。匹配有时会造成病例和对照中暴露的分布类似,这种情况被称为“过度匹配(overmatching)”。例如,有关辐射与肺癌的研究会根据职业进行匹配,这可能会使病例和对照的暴露分布相似。此外,同时匹配的一些因素可能会间接反映暴露的情况。如果同时按年龄、性别、职业、教育和饮酒情况匹配病例和对照,研究人员所关注的暴露(如吸烟)可能被匹配掉。在配对研究中,研究人员关注不一致的对子,过度匹配可以导致一致的对子数量较多,可能使比值比的估计值接近1(即难以发现致病危险因素)。
如果混杂因素的范围较大,可能难以排除混杂因素的影响。虽然研究人员认为已经匹配了这些因素,但是这些因素仍然会对病例和对照产生影响。在设计和分析阶段,需要注意这种剩余混杂(residual confounding)可能产生的问题。例如,De Vries等对2个有关他汀类药与骨折关系的病例对照研究的数据重新进行了分析,得出了不同的结果。他们对其中一个研究的病例和对照重新按照出生年进行匹配,而原先匹配的年龄条件为病例和对照的年龄差不超过5岁,结果发现,两个研究间的结果差异明显缩小。他们用剩余混杂对此进行了解释,认为剩余混杂是由匹配因素在暴露期间的不同定义引起的。
病例与对照的匹配需要维持到分析阶段。如果分析时忽略了匹配,比值比的估计可能为1。
病例对照研究通常只需要选择一组对照。如果选了一组有问题的对照,而这个对照的问题可以通过多组对照弥补时,才需要选择多组对照。例如,如果研究人员认为从医院选择的对照会产生选择偏倚,他们可以再从社区选择一组对照(如邻居对照),这样可以减少单组对照的选择偏倚。如果两组对照的分析结果相同,那么研究推论的效力会得到加强。如果使用两组对照得出的研究结果不同,结果的差异也可能提示某些发病的机制。多组对照既可以控制偏倚,还可以评估病因与结局关系的一致性。例如Sulheim等通过病例对照设计,在挪威的8个滑雪点,研究了阿尔卑斯山滑雪者使用头盔对预防头部损伤的保护效果。他们比较了578名头部受伤的病例与两组对照(一组对照来自滑雪点未受伤的滑雪者,另一组对照来自头部以外的其他部位受伤的滑雪者)。研究发现,戴头盔可以降低60%头部受伤的风险,两组对照的结果类似。Linet和Brookmeyer回顾了106个有关癌症的病例对照研究,这些研究均有多组对照。他们发现这些研究采用多组对照的主要原因包括:为了和选择其他医院对照的研究进行比较,为了弥补某些对照的局限性,或者为了评估可能的偏倚(如选择偏倚、检查偏倚或有关暴露的信息偏倚)。
如果对照中有早期病例或未检出的病例,可能造成错误分类。如果未检出病例很多,有必要评估错误分类的影响。最好的办法是让病例和对照都接受相同的诊断,以排除因未检出疾病而造成的影响。在某些病例对照研究中,病例和对照都是从做过同样诊断的人群中选出的。例如,在一个腹主动脉瘤的病例对照研究中,Blanchard等从接受过腹部放射诊断的患者中选择病例和对照。病例是诊断为动脉瘤的患者,对照也做了相同的检查,以确定他们未患动脉瘤。
研究人员在研究某个因素与疾病关系时,通常会发现其他病因。在这种情况下,可以选择同时暴露于多个病因的病例和对照开展研究。这些研究想要回答的具体问题是:为什么一些人接触了暴露但是却没有发病?例如,某个基因位点纯合的家族性高胆固醇血症的患者死于冠心病的风险很高。一个病例对照研究比较了冠心病病例和临床诊断未患冠心病的对照,病例和对照均患有高胆固醇血症。两组患者出现肌腱黄色瘤和眼睛老年环的比例有差异。
在包括多个病例对照设计的大型研究中,可能需要建立包含多组对照的一个对照库。但这种对照库可能存在的问题包括:在不同的时间对病例和对照进行调查,对照不能提供与研究目的相关的信息。
如果病例来自于一个随访期固定的封闭队列,可以通过3种方法选择对照。第一种方法是从随访期末仍然接触暴露但没有发病的人群中抽取对照的随机样本。第二种方法是在每个病例确诊时选择对照,即病例和对照的选择时间是匹配的(几乎同时选择)。这种对照可能在后续随访中变成病例。一旦对照变成病例,就应该从对照组中剔除,然后归入病例组中。第三种方法是从研究开始时的未发病的风险人群中选择对照。以这种方法选择对照的研究被称为“病例-队列研究”。这种对照可以作为一般人群的代表性样本。
如果对照来自一个动态人群,研究人员可能难以在明确的观察期内确定一个本底人群,那么可以在病例确诊的时候从病例的来源人群中选择有风险但未发病的人作为对照。
在设计病例对照研究时,有两种抽样方法会影响对照的选择和数据的分析。第一种方法被称为发病密度抽样方法,即当患者发病的时候,从所有合格的对照中选择对照。这种选择对照的方法可能造成一些无病的对照在后续研究中发病。通过发病密度选择对照的优点是,在一些对照发病前使病例和对照具有可比性。然而,对于罕见病,采用这种方法选择对照可能把病例错分为对照。Koch等对一组对照跟踪观察,发现5年中4%的对照相继变成病例(前列腺癌和黑色素瘤)。
第二种方法被称为累计发病抽样方法,即病例和对照是在研究开展一段时间后选择的。在这段时间内,所选的对照变成病例的可能性很小。这种研究中的比值比接近于相对危险度。实际上,如果研究罕见病,这两种方法对于研究推论的效力的影响都不大。对于罕见病,不论是通过发病密度还是通过累计发病进行抽样,比值比和相对危险度的数值都差不多。
对照的主要类型如下:
从一般人群选择对照的优点是具有较广泛的代表性。使用这种对照的研究结果可以推及更广的人群,研究证据的说服力最强。此外,研究人员可以从一般人群的样本中获得更全面的暴露信息,有助于全面评估可能的风险因素。从一般人群中选择对照的例子是邻居对照(先获得病例的地址信息,然后随机选择符合对照条件的无病邻居)。从一般人群中选择对照时,最好考虑病例和对照在社区中居住的时间长短,因为居住时间可能是一个混杂因素。这种对照的可能问题包括:被选作对照的人可能不配合,对照参加研究的成本较高。选择这种对照的理想步骤是:先列出符合条件的备选名单,然后从中随机选择一定数量的对照。如果不能获得名单,可以使用研究点的地图随机选择一些居住地,然后从中寻找研究所需的对照。
把医院中没有患研究疾病的患者作为对照的优点是,对照容易获得,因为入院治疗其具有和病例类似的感受和想法,可以用选择病例的方法选择对照。然而,选择这样的对照会存在一些挑战,例如在找患者了解情况之前需要获得主治医生的同意。由于住院患者和一般人群不同,所以想要把研究结果推及到住院患者以外的人群,可能比较困难。通常,住院患者对照的多样性(如诊断方法多样、入院程序不同)可能导致选择偏倚。如果病例和对照都来自相同的医院,对照的暴露情况可能与病例类似。如果对照所患疾病与研究关注的暴露有关,医院对照的暴露水平可能高于一般人群对照。例如,如果研究的暴露是吸烟或饮酒,很多医院对照所患疾病很可能与烟酒有关。Moritz等研究了选择不同对照(医院对照或一般人群对照)对解释髋骨骨折危险因素的影响,病例为425名髋骨骨折的患者,两组对照包括312名医院对照(病情更重且可能仍在吸烟的患者)和454名社区人群对照(社区老年女性),发现社区人群对照更适合髋骨骨折的研究。
研究人员可以用这种方法寻找、筛选和调查可能的对照。这种方法的优点是不需要进行面谈,并且可以从一般人群中选择对照。它的缺点是只能对使用电话的住户进行调查。此外,如果被抽中的人使用留言或语音信箱,那么他们就不能及时接受调查,这会增加选择对照的难度。且理论上,住户拥有的电话越多,他们被随机抽中的可能性越大,这会导致选择偏倚。
随机拨打电话选择对照的步骤包括:第一,获得一份涵盖研究地区所有住户电话的表格;第二,获得病例的电话号码;第三,生成一组和病例电话号码有相同区号的随机电话号码;第四,拨打随机号码寻找对照。Olson等比较了通过随机拨打电话找到的对照以及通过商业联系方式找到的对照。两个对照组的社会人口学特征和一些研究变量(如口服避孕药、生育经历和宗教等)均相似。两组对照与病例在口服避孕药、生育经历和宗教方面有显著性差异。然而,通过商业联系方式找到的人中仅有28%患有研究的疾病,研究人员据此怀疑这种对照的来源人群可能与病例的来源人群不同。但是,他们认为通过商业联系方式选择的对照的社会人口学特征与病例类似,比通过随机拨打电话选择对照更节约成本。Olson等在另一个研究中比较了两组对照的调查结果:其中一组对照从纽约Oswego通过随机拨打电话选出,另一组对照来自该郡40~74岁人群的普查数据。他们发现,两组对照大多数变量的分布没有差异(包括所有人口学特征的变量)。然而,随机拨打电话选择的对照中做过各种筛查检测的比例较高。研究人员提醒,通过随机拨打电话选择对照可能产生选择-检查偏倚。
这类对照和病例具有一个或多个相似的特征。配偶对照和病例在居住地、营养、生活方式、家庭环境等方面相似。兄妹对照和病例在遗传和早期生活经历等方面相似。朋友对照和病例在人口学特征和生活方式等方面相似。同学或同事对照与病例在受教育程度和其他社会经济方面相似。由于这些对照相对容易找到,所以可以作为验证某些假设的补充对照。然而,这些对照需要征求病例的同意。因为担心让自己的亲朋好友参与研究会给他们带来不便,病例通常不愿让朋友或同事作为对照。例如,Shaw等通过病例对照研究调查由基因决定的代谢特征,他们发现23名病例中只有11人提到朋友可以作为对照。
这类对照的选择步骤包括:第一,让病例说出几个可以作为对照的朋友、同学或同事的名字;第二,研究人员从这些被提名的人选中随机选择一些人作为对照。值得注意的是,这些对照在重要特征上可能与病例非常匹配,暴露因素甚至也可能被匹配了,造成过度匹配。要保证选择这类对照的随机性,研究人员应该尽量让对照备选名单包括较多的人,以便使随机抽样的过程得以顺利进行。Ma等在加利福尼亚北部开展了一项儿童白血病的研究,他们为每个病例随机选择了两名对照,一名对照从出生登记记录中选出,另一名对照从病例所提供的朋友名单中选出。此外,他们还选择了第三组对照,这组对照是严格从一般人群中选出的“理想”对照。他们把两组对照和第三组对照进行了比较,发现“朋友对照不能代表研究人群,在使用朋友对照进行数据分析时,种族变量有系统差异。”然而,从出生登记选出的对照可以较好地代表“理想”对照。
这种对照是从到医院探望患者的人中选择,目的是选出和病例在同一个社区生活的无病对照。这种对照的优点包括:容易获得;可以进行面对面调查;可以和病例同时调查;成本低;应答率高。在探访患者是一种社会责任或文化传统的地区,可以选择这种对照。在这些地区,研究人员可以在特定时期从医院获得一个横断面的人群。黎巴嫩、菲律宾、突尼斯和希腊等国的病例对照研究经常使用这种对照。黎巴嫩内战时研究人员几乎不可能在社区进行调查,电话联系也中断了,因此他们尝试了这种方法。但是,如果暴露因素影响医院探访,医院探望者对照可能存在偏倚。例如,一个把吸烟作为暴露因素的研究不应该使用医院探望者对照,因为医院的禁烟规定可能使吸烟者不愿进入医院。
把事故受害者选为对照的理论依据是,事故是随机发生的,事故受害者可以较好地代表一般人群。然而,事故受害者的一些特征(如某些生活方式)可能与一般人群不同。
Honkanen等开展了一个病例对照研究,在芬兰赫尔辛基研究在公共场所意外摔倒所致的伤害,特别是摔倒与血中酒精含量的关系。选择病例是15岁以上在下午3点到11点间(因研究资源有限,所以选择这一时段)因意外摔倒而受伤的人。在病例发生事故一周后,在相同的事故地点随机选择两名同性别的对照。研究人员认为时间、地点以及饮酒均与事故有关系。除了选择路人外,还从社区中选择了有这类事故风险的人。结果发现饮酒增加了路人意外摔倒的风险,这种风险甚至超过了司机交通事故的风险。虽然把路人选为对照具有一定的合理性,但应该注意路人的高危行为可能产生选择偏倚,影响研究假设的验证。
选择偏倚可能导致病例和对照的错误分类,从而影响对暴露、治疗效果或预后的评估,并影响病因对假设的验证。
选择偏倚主要包括:Berkson's偏倚、监测偏倚、潜伏期偏倚和纳入偏倚。
这种选择偏倚常见于医院的病例对照研究中。产生的原因是病例患者和对照患者的入院率不同,暴露组和非暴露组的入院率也不同。例如,在对高血压与冠心病关系的研究中,研究人员从其他患者里选择对照,如果患者和冠心病患者的入院率不同,这种偏倚就可能产生,因为仅患有高血压(暴露因素)的患者也可能入院。典型案例如Raymond Pearl于1929年在约翰斯·霍普金斯医院,根据尸检所做的关于癌症与结核病的病例对照研究。Pearl对医院7 500具尸体进行了检查,发现816名癌症病例,对病例和816名未患癌的对照进行了尸检的比较,发现16.3%的对照患过结核,而癌症病例的患病率仅为6.6%。通过进一步的分组分析证实癌症与结核病之间可能有某种“相克”的因素。但随后的研究(包括动物实验)并没有证实他的推论。其他研究人员又对医院的尸检材料进行了检查,发现这些尸检材料多数来自结核患者(结核病是当时的高发病),因此对照中结核的检出率较高。实际上,Pearl选择了一组死于结核的患者作为对照。可以推测,死于癌症的患者和死于对照组疾病的患者进入到尸检库的比例不同,结核病(暴露因素)患者由于自身因素更可能被尸检。
值得注意的是,除了Berkson偏倚,Pearl的研究可能还有其他偏倚,包括患病-发病偏倚和生存偏倚。由于所研究的病例既包括发病病例也包括患病病例(尸检所发现的病例),有可能结核病实际上有助于延长癌症患者的生存期。虽然这种假设听起来不可思议,但是研究发现结核菌素在治疗某些癌症时有效果。
这种偏倚对于无症状或病情较轻的病例更为突出。这种偏倚产生的原因是,病例和对照在诊断期间受到的监测强度(intensity of surveillance)不同,病例和对照的暴露情况可能影响他们被监测的程度。例如,使用口服避孕药的妇女比其他妇女更可能定期检查乳房,因此这些妇女更可能被检出患乳房疾病。再如,医生会倾向于把吸烟与肺部疾病联系起来,因此吸烟者中诊断为患某种肺部疾病的比例较高,尽管吸烟与这种肺部疾病的关系并未被证实。
研究人员如果在疾病的潜伏期选择病例,可能会导致潜伏期偏倚。由于病例尚未发病,可能影响评估暴露与疾病的关系。这种偏倚还会导致处于亚临床状态的病例被归入对照。癌症和一些慢性病的潜伏期很长(可长达几十年),有关这些疾病的病例对照研究的潜伏期偏倚会更加突出。如果研究人员评估的暴露因素近期才在人群中出现,而且变化很快,就可能产生潜伏期偏倚。例如,乳腺癌的潜伏期为15年,如果人们使用口服避孕药的时间不到10年,就不宜开展病例对照研究验证口服避孕药与乳腺癌的关系。
如果在某个时期选择的病例的病情更加严重,那么使用这些病例的数据来评估暴露与疾病的联系,可能会高估研究结果(即病重病例比代表性病例的评估结果更明显),这种情况称为纳入偏倚。例如,一个诊所负责管理一些家族发作性多浆膜炎患者,对诊所中两组患者的病因学特征进行比较。第一组患者是79名先入组的患者,第二组患者是79名后入组的患者。第一组先入组患者病情更严重,有更多患者有家族史,并有淀粉样变的并发症。这种病例纳入偏倚可以解释,为什么不同国家家族发作性多浆膜炎的临床病例系列研究的结果差别较大。
如果研究中存在偏倚,就应想办法找到偏倚,并评价偏倚对研究结果的影响。有时提取一个小样本,就能较好地评价偏倚的影响。以下是在选择和分析过程中处理选择偏倚的一些方法:
①使用相似的程序选择病例和对照,使病例和对照的排除和纳入标准保持一致;②保证病例和对照较高的应答率或参与率;③从多个医院收集数据,或使用患各类病人作为对照;④比较对照组和一般人群的暴露情况,评价暴露分布不同对研究结果的影响;⑤避免调查员选择病例和对照。
①分层和/或使病例和对照诊断前的监测水平保持一致;②分层和/或保证疾病诊断有明确的依据。病例组中包含的确诊患者越多,暴露与疾病的关系会越明显;③根据发病或诊断日期对病例进行分层,比较各层病例的暴露的相对频率;④评估联系的强度。如果研究发现比值比很大,通常研究中没有选择偏倚;⑤评估暴露与结局的剂量反应关系。如果剂量反应关系明显,通常研究中没有选择偏倚;⑥评估偏倚对研究结果的影响程度。可以在没有影响和最大影响间做出多种评估。
研究人员应该尽量客观地收集数据,在各个环节确保数据的有效性,从而保证研究结果的科学性和指导性。
研究人员应根据研究设计和研究人群,对联系进行测量。1951年Cornfield使用比值比评估联系,在他之前人们使用更简单的方法评估,包括:计算病例和对照的暴露的相对频数,然后根据统计显著性检验做出判断。随着相对危险度的提出和运用,比值比被用于病例对照研究中,作为相对危险度的近似估计值。比值比是病例的暴露风险与对照的暴露风险之比。研究人员通过发病密度抽样在病例发病的时候选择对照,其目的是用相对发病率测量研究的联系。在大多数病例对照研究中,比值比替代相对危险度。Morabia等使用南威尔士镍冶炼厂工人(呼吸道癌症较为普遍)队列的数据,对不同的子队列人群进行了一系列巢式病例对照分析发现,“如果在风险暴露时期病例一出现就选择对照,那么比值比可以很好地估计相对危险度。”如果从研究队列中选择对照样本,比值比和相对危险度的数值很接近。该研究结果说明,病例对照研究可以有效评估研究所关注的联系。
在病例对照研究中,应该确保暴露测量的可靠性。但是,除了测量方法会影响测量结果外,行政管理过程以及操作步骤也可能影响测量结果。例如,研究对象需要知情同意后才能纳入研究。如果一些接触某种暴露的病例知情后不愿参加研究,研究结果可能有偏倚。
暴露测量问题也是观察性流行病学研究所共有的问题,这些问题在病例对照研究中尤为突出。主要问题包括:①各种暴露因素可能相互影响;②暴露因素与遗传因素可能相互影响;③难以确定不产生效应的暴露水平以及剂量反应的阈值;④人群中的暴露与效应的关系可能变动;⑤难以测量暴露所致的小效应(不明显效应)。
Correa等回顾了1992年的223个病例对照研究,把研究中的暴露分为6类:生活方式、职业因素、环境因素、饮食因素、生育因素和药物使用。暴露数据一般是通过研究对象的自报告收集,使用专门的问卷(如饮食频率问卷)进行调查,汇总各个问题的回答后统计出总的暴露值。
虽然可以使用问卷对暴露进行简单直接的测量,但研究人员还需要对暴露数据进行转换。例如职业暴露矩阵包括多个维度的信息(职业、产业、工时和工作环境等),研究人员开发了多种算法和转换表协助测量暴露。在营养和职业流行病学中,采用标准化问卷和调查工具所收集的数据,可以更容易地转换成标准化的暴露总值,同类研究中的暴露值可以进行比较。
要评估暴露测量的有效性,研究人员需要分析测量方法的敏感性(能否敏感地识别出真正暴露的人),以及测量方法的特异性(能否有效识别出没有暴露的人)。要尽量减少暴露测量的假阳性和假阴性。多个研究比较了记录和回忆的暴露数据的差别。例如,Gonzalez等比较了2个病例对照研究的X线检查史的数据,该数据有两个来源,一个来自患者自报,另一个来自病历记录。研究发现,两个研究中患者自报和病历记录中的X线检查次数差异显著。然而,两个研究中X线检查的系统误差没有差异,两类数据对风险的估计值相似。
在测量暴露前,有必要先根据以下问题评估暴露-疾病关系的生物学证据:①假设的暴露是否会使其他动物出现病理改变,是否会导致其他疾病?②暴露的自然史如何?暴露如何导致疾病?③暴露后多长时间会发病(疾病的潜伏期)?了解疾病的潜伏期有助于寻找病因。研究人员是否考虑疾病的潜伏期会影响病例对照研究中数据收集的方法。
如果研究人员使用不同的工具测量同一组人的暴露情况,那么他们需要比较和评估这些工具的测量结果的一致性(即可靠性或稳定性)。用于评估暴露测量可靠性的方法包括:不同调查人员测量结果的一致性,相关分析,Kappa统计量。
Kappa统计量可以用于评估不受期望一致性影响的一致性,见式(2-1)。
在测量暴露的时候,需要使用经过信度分析且达到要求的测量工具。例如,Friedenreich等使用信度系数为0.74的问卷对988名前列腺癌新发病例和1 063名一般人群对照进行调查。调查工具除了需要达到信度要求外,还需要保证使用相同工具的不同研究结果具有可比性。
选择的调查对象要能保证暴露测量的可靠性。如果研究人群中的所有对象均接触过暴露,研究人员将不能评估这个人群的病因联系,因为病例和对照的暴露情况几乎一样。Wynder和Stellman指出:“如果病例和对照人群的暴露水平差别不大,从研究数据中就很难找出影响健康的因素。这部分解释了为什么研究一直没有发现美国人食用脂肪与癌症间的关系。因为美国人摄入的脂肪占总热量的比例大致相同,在美国的研究只能发现很小的相对危险度。”如果每个人都使用手机,那么手机暴露就不能作为交通事故的风险因素,除非提出更加具体的研究问题。例如,可以把手机的使用频率和方式作为导致交通事故的可能因素。
在病例对照研究中,暴露与非暴露状态的错误分类比病例的错误分类更加突出。暴露测量可以导致错误分类,如果不加以重视,会对研究推论造成较大影响。
要评价暴露信息的信度和效度,需要清楚数据收集的方法。可以采用评价调查工具信度和效度的方法评价测量暴露的工具。通信技术的突飞猛进使得手机和互联网的使用非常广泛,这些技术使得研究人员可以用新的方式和研究对象交流。然而,不管调查方式如何改变,研究人员需要坚持一些基本的原则(如保证数据收集过程与病例对照的选择过程相互独立),才能确保数据的信度和效度。
测量中的随机误差在病例和对照中没有差别,而且不会改变。通常,这种随机误差会使研究人员不能发现存在的联系(除非测量值和真实值间有很好的相关性)。Fung和Howe回顾了混杂因素和危险因素均被错误分类对评估联系的影响,发现如果混杂因素被错分,但是病例和对照的测量误差没有区别,则可能得到接近1的比值比。
系统误差会造成对照组和病例组中的误差不同,会导致研究结果的有偏估计。偏倚的类型和影响会使比值比产生波动。如果收集暴露信息的过程与收集病例和对照数据的过程不独立,如病例比对照更容易回忆暴露的情况,或者研究人员更容易从病例收集到暴露的信息,可能得到一个过度估计的比值比。
Sosenko和Gardner回顾了3个研究的错误分类情况,发现如果研究中有很高或很低的暴露频率,对暴露的错误分类可能造成对比值比的错误估计。
研究人员需要对暴露进行清晰有效的定义,包括对暴露时期的界定。疾病的潜伏期决定了暴露时期的长短。如果调查过去10年的暴露情况,需要假设暴露后发病的潜伏期可能长达10年。
要收集到质量较好的暴露信息并非易事。在评估暴露的每个环节上可能都存在问题,从而影响评估的信度和效度。因此,研究人员应该认真计划和实施病例对照研究中暴露评估的每个步骤。下面是评估暴露时应该考虑的要素:
①暴露时期;②暴露的剂量和强度;③最初暴露发生的时间。
①根据以往经历对暴露进行分类;②暴露对于公众的威胁。
①生物学、病理学和临床检测;②有关暴露的记录;③访谈和问卷调查。
①二分类变量(或多分类变量);②等级变量(如小、中、大);③离散变量(计数);④连续变量(数值变量)。
虽然病例对照研究在暴露测量时需要考虑上述要素,但是许多发表的文章并未描述这些信息。Kelsey等开展了老年人髋骨骨折的病例对照研究,发现了研究中的一些问题。其中一个问题是,一些老人有认知障碍,因此不能回答问卷问题,只能让老人的亲属帮助回答。其他问题包括:问卷设计、应答率、调查过程、伦理问题等。
有多个研究比较了暴露测量的各种方法。例如,Lichtman等对一群减肥失败的人自报的暴露情况进行研究发现,这些人提供的信息提示,虽然把每天摄入的热量控制在1 200kcal(1cal=4.19J)以下,但是他们依然肥胖。研究人员仔细测量了这些人14天的能量消耗和热量摄入情况,发现这些人报告的食物摄入量比实际平均量低47%,报告的运动量比实际的运动量高51%。
过去二十多年,新技术对暴露的测量有很大的影响。通信和网络技术的发展,让流行病学家重新思考暴露测量的工具。最近,使用计算机进行调查正成为一种测量工具。虽然控制应答的技术(如语音留言)限制了对随机数字拨号选出的调查对象进行调查,但是手机使用率的增加让很多手机所有者都可能成为随机数字拨号的调查对象。
以下是病例对照研究中暴露测量的一些方法。
绝大多数病例对照研究都通过结构问卷收集数据。Correa等回顾了223个病例对照研究,发现86%的研究都使用问卷收集暴露的数据。开发和使用问卷需要遵循一些原则。这些原则包括:问卷的用语和格式清晰,采用标准化方式提问题,问题的逻辑顺序合理,问题的数目适中,完成问卷所需的时间适当等。如果填写问卷需要1个多小时,调查对象会感到疲倦(特别是患者),这样会影响数据收集的信度和效度。问卷可以收集有关暴露和协变量的具体数据。通过这些数据,研究人员可以评估暴露的时期、程度和方式等。由于使用方便,收集的信息量大,问卷被广泛使用。问卷中的问题需尽量保持中立,不能诱导调查对象给出研究人员希望的回答,从而产生应答偏倚。
问卷的形式通常是结构问卷,即由提供选项的标准化问题(封闭式)构成。问卷也可以是非结构问卷,即只有问题题目,不提供选项。非结构问卷通常是开放式的,用于收集调查对象的意见和陈述,研究人员无法知道调查对象会如何应答。因此,非结构问卷有助于研究人员探索各种可能的病因,获得尽可能多的信息。然而,非结构问卷也有一些缺点。例如,通过开放式问题收集的数据难以处理,需要对其编码和分类才能分析。此外,开放式问题收集的数据可能包括大量无用的信息,需要花时间从中筛选出有用的信息。
调查者可以引导调查对象提供信息。在调查过程中,调查对象必须清楚问题问了什么,然后通过回忆和思考给出答案。由于调查对象未必会如实认真地回忆、感受和思考过去的经历,提供的关于暴露的信息未必真实。患有某些疾病的病例(如某些疾病急性发病的术后)会有记忆力减退或思维混乱等认知障碍。在对这类病例进行调查时,需要考虑其回答问卷的能力。
研究人员可以采用多种方法完善问卷,提高调查质量。在问卷设计完成后,需要进行预调查,以对问卷进行修改完善。研究人员需要测试问卷的用语是否通俗易懂,需要在问卷中加入一些提示,以帮助调查对象回忆既往信息。研究人员还应该尽量想办法获得暴露信息。例如,可以界定不同的时期,然后询问调查对象在这些时期内是否有过暴露,从而推断出暴露的时间。
使用电脑开展调查有许多优点。基于电脑的调查系统更加灵活,调查过程更加简化。使用电脑软件可以根据预先的研究设计收集信息,还可以提供视觉的辅助。电脑软件可以对所收集数据的质量和一致性进行实时检查。由于可以让调查对象在电脑前独立完成调查,很好地保护了他们的隐私,所以这种调查方法可以增加敏感问题的应答率。Vande Wijgert等在津巴布韦测试了一种调查软件,发现这种调查软件在发展中国家使用与在发达国家使用具有同样的优点,大多数(86%)妇女更愿意参加电脑辅助的调查。电脑辅助的调查方法在问卷的设计、预试验和数据收集等方面都有明显优势。
该调查方法在收集数据方面成本较低。如果问卷涉及一些敏感问题,这种方法比起调查员面访的方法更容易获得相关信息,可以让调查对象有更多时间思考问卷中的问题,保证回答的真实性,减少调查员偏倚(interviewer bias)。该调查方法的主要问题包括:应答率低(一些研究连续发出了3份邮件后,仅有60%的调查对象回答了问卷,在我国可能更低)、依赖于邮递系统(一些国家的邮递效率极低)。需要注意的是,因为某些调查对象不按问题顺序填写问卷,所以在设计邮件调查的问卷时,不要按问题的重要程度排列问题。在这种调查中,要保证问卷问题清晰易懂,因为调查人员不可能向调查对象解释问题。由于是调查对象自行完成问卷填写,研究人员不可能直接观察调查对象及其所处的环境。这些观察有时可以帮助研究人员了解调查对象在回答问卷时的情绪反应,甚至可以提供一些信息(如调查对象的社会经济学特征、暴露的间接证据等)。Bahl等报告了加拿大的一个采用邮件调查的病例对照研究。为了研究服用抗抑郁药是否与非霍奇金淋巴瘤有关,他们向723名该病的病例邮寄了问卷,其中638人(88%)填写了问卷。此外,他们把相同的问卷邮寄给2 446名从官方记录中选择的无病对照,其中1 930人(79%)填写了问卷。研究分析没有发现服用抗抑郁药(特别是服药史和药物种类)与非霍奇金淋巴瘤有关。
有多个研究试图找到提高邮件调查应答率的办法。Spry等开展了3个对比试验,比较了明信片或电话提示、彩票、物质奖励以及问卷长度对应答率的影响。明信片加上彩票提高了54%的应答率,只是减少问卷问题,或只是彩票奖励,不能显著提高应答率,物质奖励可以明显提高应答率。Eaker等在瑞典比较了3种邮件调查的方式。他们发现,提前通知、问卷简短和不提及联系电话的问卷回收率最高。如果调查对象是年轻男性、居住在城市,回收率明显降低。Hoffman等指出许多这类研究在特定环境中开展,研究结果受文化差异的影响。一些研究人员比较问卷长度、物质奖励和随访对于邮件调查应答率的影响,结果发现,短问卷组的应答率和长问卷组的应答率相似,物质刺激没有增加应答率,再邮寄一份问卷(23%)比用明信片提醒(10%)更能有效提高应答率。White等发现,在邮寄问卷的信封中随机放一支笔可以使应答率提高15%~19%。
如果可能,应该尽量采用个人访谈的方式收集数据。个人访谈的优点包括:可以直接观察调查对象的住处和反应;可以主观评估调查对象提供信息的真实性。个人访谈的缺点包括:调查员偏倚;访谈过程难以标准化。如果交通不便、治安不好,最后能访谈到的调查对象可能不多。此外,个人访谈还受访谈环境的影响,访谈时是否有其他人在场会影响信息的收集。调查员也会影响数据的收集。例如,调查员提问以及记录数据的方式可能存在差异。
这种调查方法高效安全。如果不能从电话簿上找到潜在的调查对象,可以使用随机数字拨号的方法。在芝加哥开展的一项研究中,31%的研究对象在电话簿上没有号码,只能通过随机数字拨号的方法联系。电话调查也是由经过培训的人员进行电话访谈,因此个人访谈中的很多问题也同样存在于电话调查中。和邮件调查一样,电话调查不能直接观察,也不能向调查对象展示相关的图片或材料。然而,Beresford和Coker开展了一项有关激素治疗的病例对照研究,在进行电话调查前先邮寄了激素药物的图片。这些图片使很多研究对象回忆起了激素药物的名称和剂量。电话调查比个人访谈成本低,据估计电话调查的成本仅是个人访谈的一半。电话调查增加了与研究对象的互动,可以在一定程度上保证数据的有效性。Link等比较了电话调查和邮件调查的结果,发现自填邮寄问卷比起电话访谈更可能高估研究的结论。
在一些特殊情况下,研究人员会对了解研究对象的人进行调查。例如,调查死亡病例或对照的亲属,或者调查老年痴呆患者的亲属。如果病例的暴露数据由知情人提供,而对照的暴露数据由对照本人提供,病例和对照的暴露信息的效度可能不同,会影响对研究关联的评估。因此,建议对病例和对照的知情人开展调查,收集暴露信息。Korten等采用Kappa一致性检验比较对照本人提供的信息与老年痴呆患者亲属提供的信息发现,生活方式、最近患病和医疗等信息暴露的一致性最好,而需要研究对象作出判断的暴露的一致性最差。在一个口腔癌的病例对照研究中,Greenberg等比较了23名由亲属提供的病例的信息和113名病例自己提供的信息。亲属代答的病例比起自己回答的病例病情更严重、身体更虚弱、受教育层度更低、吸烟和酗酒更多。Lyon等比较了163名配偶提供的数据与直系亲属提供的数据。直系亲属比配偶更容易提供错误的暴露信息,两者提供的暴露信息的一致性由大到小依次为:吸烟、饮酒、喝咖啡、饮食。研究人员认为:“研究对象的亲属不能提供正确的信息,是多种因素作用的结果,这些因素包括研究的暴露类型和知情人的类别。”
登记信息通常比较可靠,可以帮助研究人员选择病例和对照。但是,研究人员很难从这类信息中获得全面的暴露数据。如果在登记的时候按照统一的方式收集暴露信息,那么登记信息的价值会很高。但实际情况并非如此。例如,比起医生为了临床诊断收集的信息,对入院患者定期收集的数据的标准化程度会更高。这些定期收集的数据在比较应答者和非应答者的基本特征方面更有用。一些医院在入院时定期收集的信息范围很广,不仅限于社会人口学特征和疾病管理等信息。例如,纽约某医院的患者在入院时需要填写一份流行病学问卷,内容包括疾病确诊前的生活方式和暴露情况,这种收集数据的做法已经持续了40多年。这类问卷可以为多种癌症的病例对照研究提供数据。
不同登记信息的来源不同,所提供的信息的效度也不同。如果在暴露发生时就进行记录,这种登记信息的信度和效度较高。然而,登记信息中的暴露数据可能记录不清或不全。如果想从登记信息中获得暴露数据,需要采用标准化的方法提取信息。但这种提取信息的方法可能产生随机误差和系统误差。
出于各种目的,登记信息会被保存,从而成为病例对照研究的有价值的信息来源。例如孩子出生时,出生登记和医院分娩记录包含产妇的个人信息及其暴露的情况。医学记录包含很多医治方面的暴露信息。医疗保险记录包含患者和医疗机构的互动信息。职业记录可以提供职业暴露和生活方式等信息。
医学记录是暴露数据的主要来源。医学记录的缺点包括:数据不完整、由于诊疗规程的调整和暴露测量涉及多人而造成的信度和效度不好。很多暴露的数据(如吸烟)没有很好记录,因为这些数据的收集并未纳入常规入院数据的管理。
从职业记录中提取暴露的数据也存在很多问题。这些问题包括:有关暴露时间的信息不全、职业的错误分类、随意归类职位、职位编码错误或不当等。如果条件允许,研究人员可以通过访谈研究对象或查看保险记录,对职业记录的信息进行验证。
病例对照研究可以使用生物学工具来测量暴露的标志物(marker for exposure),例如血铅可作为铅暴露的测量指标。生物学工具还可以测量遗传易感性(genetic susceptibility),例如通过测量葡萄糖-6-磷酸脱氢酶缺乏症(G6PD)的水平可以评估缺乏这种酶导致溶血危象的易感性。此外,生物学工具还可以测量暴露所致的人体标志物的变化。例如,一些青春期前的男童会出现乳房发育,对病例和对照进行血和尿激素水平的测量,可以判断他们是否服用过雌激素。Correa等列出了生物学标志物的特征:特异性识别抗原;随时间延长,数量可以保持或降解,可以反映暴露的累积效应;使用可靠的方法可以检出;可以测量罕见的结果变异。
研究人员可以对存活的病例和对照的标本测量一些生物学指标,并收集环境致病因素的数据。需要注意的是,如果在发病后收集这些数据,可能出现横断面偏倚(cross-sectional bias),从而导致对关联的有偏估计。Beane Freeman等就遇到过这种问题,为了验证趾甲的砷和皮肤黑色素瘤是否有关,研究者让368名病例和373名对照剪下趾甲,测量了趾甲砷的浓度,发现随着趾甲砷浓度的增加,患皮肤黑色素瘤的风险也会增加(OR=2.1,置信区间:1.4~3.3)。Coultas等每半年对149名不吸烟的成年人进行两次问卷调查,了解他们在家里暴露于香烟烟雾的情况,从而评估问卷数据的可靠性,还比较了问卷数据和调查对象24小时内尿中可替宁(尼古丁在体内进行初级代谢后的主要产物)的水平。虽然两次调查中父母吸烟的数据一致性很高,但是尿中可替宁的水平和调查对象自报的暴露情况的相关性并不高。
许多病例对照研究探索生物学指标与疾病的联系。但是,横断面偏倚导致研究结果受到了影响。这类研究采集标本的时间通常在发病后,因此不能确定生物学指标与疾病间的关系是否是病因关系。要避免横断面偏倚,可以开展纵向研究,收集正常人群的数据,然后用巢式病例对照研究的思路对数据进行分析。新发病例的标本在发病前就采集,然后按照相同的程序对随后选出的对照采集标本。标本库的建立有助于研究多种疾病,如癌症、艾滋病、心血管病和神经疾病等。
如果根据研究对象的分类(病例或对照)收集暴露的数据,可能产生各种偏倚,使暴露信息错误分类。因测量暴露或收集数据的问题所导致的偏倚被称为信息偏倚。如果选择病例和对照的过程与测量暴露的方法不相互独立,在评估风险或暴露-疾病联系时可能会产生偏倚。如果做不到两个步骤相互独立,会影响研究结果的有效性。在病例对照研究设计和实施的整个过程中都需要坚持两个步骤独立的原则。
暴露测量可能产生的主要偏倚包括:无应答偏倚、回忆偏倚和调查员偏倚。
如果病例和对照对暴露相关问题的应答率不同,或者信息来源的数据不全,这种偏倚就会出现。病例和对照暴露率的不同不能反映真实的暴露情况,会影响数据的信度和效度。Madigan等开展了一个年轻女性乳腺癌的研究,他们比较了提供与未提供暴露信息的研究对象的基本特征,发现这两类人的很多特征存在差异,其中一些特征和研究假设有关。然而,如果把未提供暴露信息的人的数据也纳入分析,比较出相对危险度和理论相对危险度,缺少这部分人的暴露信息对相对危险度的估计影响很小。Iwasaki等在日本对未提供暴露信息的自填问卷调查对象进行研究,发现提供暴露信息的人年龄更大,受教育水平更低,从事多种职业,较少吸烟,饮食习惯较好。相比面访调查,邮件调查中无应答的问题会更突出。Coogan和Rosenberg在一个结肠直肠癌的研究中测试了给予报酬是否会改变病例和对照的研究参与率,他们发现“给对照一点报酬,他们会对研究产生好感。但是一点报酬对病例没有作用,甚至有不好的影响,可能让一些原本打算参加研究的病例感觉受到了侮辱”。
暴露的数据通常用回顾的方法收集,可能导致信息回忆的偏倚。通常,病例比对照更容易回忆一些事件,在回答有关暴露的问题时可能更仔细。这些差异可能影响研究人员对病因联系的估计。例如,病例比对照更记起儿童时期接触的放射性暴露。此外,如果对病例和对照的家人进行调查,病例的家人可能提供更多相关暴露的信息,而且这些信息与研究的疾病关系更大。病例和对照如果在回忆信息上存在差异,也会产生偏倚。Gibbons等用前瞻的方式收集母亲对一些问题的回答情况,在她们的婴儿突然死亡6周后用同样的问卷再对她们进行调查。使用Kappa一致性检验对27名病例和25名对照进行比较。病例和对照在人口学特征、妇科和产科病史、父母吸烟和婴儿喂养方法等方面一致性较好。前后调查结果提示,6周后的调查中更多病例母亲报告有家族病史和婴儿床上用品等暴露情况。Houts等比较了189名癌症病例和其年龄相仿的同性兄妹对照,发现更多病例自报面临日常生活、营养和情绪等问题。研究结果提示,癌症病例倾向于报告更多的问题。Coughlin在文献综述中提到和暴露特征有关的回忆偏倚以及和调查对象特征有关的偏倚。调查技巧、问卷设计和调查对象的动机都可能导致这些偏倚。
某些研究因素(如暴露)可能影响研究人员对错误分类的估计,因此需要根据具体的研究问题对回忆偏倚进行分析。Hopwood和Guidotti对22个接触硝酸雾的患者进行调查。他们在发病24小时内开展首次调查,6个月后又做了第二次调查。在第二次调查中,患者记起更多发病时的症状。Drews和Greenland通过大量分析得出结论:有时即使调查对象提供的信息不准确,这些信息对研究结果的影响也很小,特别是当暴露率很低的时候。Norell等在长期口服避孕药的研究中比较了427名妇女的问卷调查数据和她们的处方记录。这两类数据在药物种类、近期服药、服药时间跨度(从首次服药时间到最近一次服药时间)、服药时期等方面有较高的一致性。但是,这种情况非常少见。一般来说,通过登记信息所获得的暴露数据效度较低。
如果调查员希望或更愿意听到调查对象的某种回答,病例和对照的暴露信息会被错分,从而导致调查员偏倚。此外,如果调查员清楚谁是病例谁是对照,可能更倾向于对病例收集暴露的信息。如果调查员不使用统一的调查方法,收集的数据也可能产生偏倚,导致对研究结果做出不当估计。要避免调查员偏倚,调查员需具备一定的素质,如掌握调查技巧,认真实施调查,具有收集信息的敏锐力,态度好,一丝不苟,能应对调查中的各种情况,保持热情,实事求是,始终如一等。调查员要达到所有这些标准很难,但要尽量按要求开展调查。培训调查员和监督调查过程有助于控制这种偏倚。
对于测量偏倚,要尽量控制和避免,至少要能估计偏倚的大小。知道偏倚的影响有助于研究人员合理估计研究的联系或风险。虽然数据处理和分析对控制偏倚有一定作用,但是要准确测量暴露,研究人员需要尽量保证数据的效度。研究质量的好坏取决于研究设计、调查工具和调查方法。
按照规范进行研究设计和准备,可以减少这类偏倚。此外,预试验有助于调整研究方案,减少研究实施中可能产生的偏倚。减少偏倚的策略还包括:培训调查员、多来源数据相互印证等。
为了减少测量偏倚,研究人员可以参考和使用以下的策略和方法:
使用效度好的调查工具:①使用其他研究中已经测试过的效度好的问卷。②合理设置问卷问题的选项。③使用多种工具测量暴露可以提高测量的精度。④在问卷中增加一些其他暴露的问题(现有证据不支持这些暴露是病因的假设,但是这些暴露会让调查对象觉得和疾病有联系),这样做在一定程度上可以减小病例和对照在回忆暴露时的差异。判断病例是否也会更多地选择这些暴露。例如,如果研究目的是药X是否会导致先天缺陷,可以在问卷中增加药Y和药Z的使用情况,而药Y和药Z已被证实不会导致先天缺陷。⑤直接对研究对象本人进行调查,避免他人代答产生的偏倚。⑥全面评估暴露的情况,如暴露强度、时期和时间。有关暴露的信息还包括:首次和最近一次暴露时间、同时接触的其他暴露源(可能与研究的暴露因素有交互作用)。
(1)开展预调查。对研究对象的一个小样本开展预调查,测试调查工具和调查方法。预调查的各个环节要尽量贴近实际调查。
(2)开发调查员指南,说明调查的步骤和要求,针对调查中可能出现的问题提出对策。
(3)如果可行,使用电脑辅助的调查收集数据,可以保证调查的标准化,减小调查员偏倚。
(4)不要让调查员知道谁是病例谁是对照,避免他们有倾向性地收集暴露信息。
(5)对调查员进行统一培训。通过规范调查员的行为,避免研究中可能出现的偏倚。
(6)在调查过程中进行质量控制。Edwards等在开展一个大型结肠癌的研究时,通过一个质控系统对部分调查员的工作进行录音,并判断他们的行为是否符合要求。他们发现,调查员按统一的方式问了94.2%的问题,调查中89.5%的行为符合要求。他们用模型模拟的方法估计了调查员如果不按统一要求调查对研究效力和结果推论的影响,研究效力可能从84%降至56%,比值比的估计会从1.8降至1.3。
(7)补充问题或使用其他技巧(如让调查对象回忆生活中的重大事件),帮助调查对象回忆。
(8)评估回忆的偏差。
(9)同时调查病例和对照,避免因短期变化(如季节性变化)影响研究结果。此外,如果调查时间很长,调查员也可能更换。这样,病例和对照间的差异不仅包括各种偏倚造成的差异,还包括长期数据收集导致的差异。短期调查有助于减少这些差异。如果要进行生物学检测,同时采样也很重要。不要按时间先后分批检测病例和对照的生物学样本,因为仪器校准、样本本身以及检测人员的水平等因素可能会随时间变化。
(1)使用从其他来源获得的信息验证登记信息的完整性、有效性和可靠性。
(2)仔细设计和测试提取信息的表格。
(3)培训专门收集信息的人员,并对信息收集的过程进行监督。
(4)不让信息收集人员知道研究的一些具体情况。最好不让他们知道具体的研究假设。如果他们知道了这类信息,他们可能会有意从一些记录中提取暴露信息,而忽视其他记录中的暴露信息。
(5)明确信息登记的最初目的。不仅是为了方便管理,还是为了进行研究(对数据收集的要求更严格)。尽量找知情人了解信息登记的最初目的、方法和缺点。
(6)信息收集员需要有一定的背景知识,需要接受统一的培训。最好使他们对研究对象的分组不知情(即不知道谁是病例谁是对照)。在给信息收集员的材料中把可以识别出病例和对照的信息剔除,可以保证他们对病例和对照的状态不知情。
(1)比较不同来源(如专题调查、人口普查)的数据。对同一组调查对象从两个来源收集数据,把效度更好的一类数据作为标准进行比较。
(2)把“调查员”作为分层因素纳入分析,检验调查员偏倚是否对研究结论有影响。
(3)分析是否存在差异回忆(differential recall)。估计出偏倚的大小后,研究人员可以对比值比的估计值进行调整,或者对比值比作出一个范围估计。
(4)评估测量偏倚的影响大小,判断偏倚能否解释观察到的联系。如果比值比很大(大于3),那么偏倚对观察到的联系的影响可能很小。
(5)对研究人群进行分组评估偏倚的可能影响,了解偏倚对各组人群的影响是否有差别。
(6)在分析时,不能把缺失值处理成否定的回答。通常,如果研究人员在医疗记录中没有发现想收集的信息,会把这种信息缺失处理成没有暴露。但是,这种做法并不合理。例如,缺乏病例吸烟的记录并不能说明患者不吸烟。
研究人员根据研究规范和经验,可以判断偏倚的来源。但是,因为病例对照研究的内在局限性(不能直接评估暴露组和非暴露组的发病情况,因此难以准确估计暴露对疾病的影响),所以要评估偏倚对研究结果的影响程度往往很困难。