中医临床真实世界研究最新章节_刘建平著

第二节　横断面研究的设计和实施

虽然观察性研究在设计严谨、实施质量高的前提下可能得到与随机对照试验相近甚至一致的因果推断结果，但如果设计时考虑不全面，偏倚风险将大幅升高，所得结果可能与真实效应差别较大。建议研究者在设计评价横断面研究时，对研究的关键要素与环节进行审慎思考，同时强调根据研究问题事先制订研究方案和统计分析计划，以提高横断面研究结果的真实性、降低潜在偏倚风险。

一、确定研究目的

研究目的的确定与研究设计的各个步骤均有密切的关系，因此需要首先明确。但是研究目的确定要考虑横断面研究设计的研究范围和因果推断能力，即横断面研究能解决什么问题，同时还要考虑选题的科学性、可行性、创新性。横断面研究能够解决的问题包括如下几种：

（1）描述疾病或健康状况的分布，如人群中2型糖尿病的患病率或人群吸烟率。

（2）研究影响人群健康和与疾病有关的因素，即在调查患病的同时调查相关的因素，进而分析因素和疾病之间的关系。

（3）用于卫生服务需求的研究，如测量某种疾病管理或者某种健康状态维持需要的资金投入。

（4）用于医疗或预防措施及其效果的评价，如疫苗接种后的效果评价。

（5）用于社区卫生规划的制定与评估，如根据卫生资源的配置调查和患者医务人员的需求和反馈，制定卫生规划。

二、确定研究类型

横断面调查有普查和抽样调查两种基本方式，有时候也将普查和抽样调查相结合来用。需要根据研究目的来选择相应的方法。如果目的是了解某地区或者某人群的健康状况或感染率，最好采用普查的方法。而如果目的是了解某病和某因素的关系，抽样调查就可以解决问题。具体需要考虑研究目的和经费、人力、物力各方面的情况综合选择。

三、确定研究对象

要明确研究对象，首先需要明确研究总体、研究的抽样框和样本几个概念。研究总体：根据研究目的确定的同质观察单位的全体。抽样框：研究对象的来源人群。样本：从总体中随机选择出来的总体的一个有代表性的人群即纳入研究的研究对象。如，我们为了了解医院管理的冠心病/心绞痛患者的焦虑抑郁现状，那么总体、抽样框和样本的概念见图8-4。但是研究对象如果涉及疾病或者某种状态，需要明确疾病的诊断标准、纳入标准和排除标准。

图8-4　研究总体、抽样框和样本示意

*总体即根据研究目的确定的中国居民中所有冠心病/心绞痛患者的全体。抽样框即我们从这样的一个人群中抽选出符合本研究的研究对象，这个人群就是抽样框。样本即研究最终选择出来的纳入的研究中的研究对象。

四、确定样本量

普查是对符合条件的研究对象进行全面调查，不需要估算样本量，但是需要事先知道总体的大小，以便于后续工作的安排。而抽样调查则需要恰当估计样本量，以有足够的把握度得到预期的结果。横断面研究样本量大小的影响因素有多个方面，首先需要确定主要研究结果指标是二分类还是数值类型变量。这两种的样本含量计算是不同的。

1．结果变量是二分类变量影响样本量的因素主要有以下几个方面：

（1）预期现患率（或者某个关心的结局或者事件的率）的大小，该值越小，所需要的样本量越大。

（2）对调查结果精确性的要求即允许误差（d）的大小，该值越小，所需要的样本量越大。

（3）要求的显著性水平即α的大小，一般α=0.05，α越小，所需要的样本量越大。

p ：预期现患率（事件率）； q =1- p ； d ：容许误差，一般为0.1 p ； α ：检验水准。

以上样本量估算公式仅应用于n*p＞5的情况。如果n*p≤5，则要用Poisson分布的方法来估算样本量。具体可参考统计学教材Poisson分布期望值的可信区间分布表进行计算。

2．结果变量是数值变量影响样本量的因素主要有以下几个方面：

（1）某个关心的结局指标的总体标准差的估计值（s）的大小，该值越大，所需要的样本量越大。

（2）对调查结果精确性的要求即允许误差（d）的大小，该值越小，所需要的样本量越大。

（3）要求的显著性水平即α的大小，一般α=0.05，α越小，所需要的样本量越大。

s ：总体标准差的估计值； d ：容许误差； α ：检验水准

3．样本量计算的其他考虑在按照公式计算出来样本量后，还要考虑其他的因素。比如抽样方法，不同的抽样方法，抽样误差的大小不同，我们计算出来的样本量也需要进行相应的调整。如果是整群抽样，往往将样本量增加为计算出样本量的1.5倍，多阶段抽样等抽样方法的样本量计算较为复杂，建议应用PASS或其他专用软件进行样本量的计算。如果做多因素分析，我们还要考虑模型纳入的变量数，调整样本量以保证足够的统计学稳定型和一定的统计学检验效率。再就是我们主要关注的研究结果的个数，比如说有两个或以上主要关注的指标，可以按照每个指标估算一个样本量，然后以样本量大的为准。

五、确定抽样方法

抽样即是把样本从总体中抽选出来的过程。抽样的方法即用何种手段把样本从总体中选择出来。抽样方法有非随机抽样和随机抽样两大类。随机抽样的样本则必须遵循随机化的原则，即保证总体中每一个对象都有相等的概率被选作研究对象，以保证样本是总体的一个均衡代表，保证样本的代表性。非随机抽样，即只要不能够保证研究对象能以均等的机会被抽选入样本中，那么这种获取研究对象的方法就是非随机抽样的方法。样本抽取的过程可以遵循图8-5步骤进行。

图8-5　抽样步骤

（一）随机抽样

抽得的样本能够很好地代表总体，而且要有足够的样本量，同时调查的数据可靠，分析正确，那么将来才可以把通过调查所得到的结果外推到总体。能够满足这个条件的最佳抽样方法即是随机抽样。常见的随机抽样的方法有很多种，如单纯随机抽样，系统抽样，分层抽样，整群抽样和多阶段抽样等，其中单纯随机抽样是其他抽样方法的基础。

1．单纯随机抽样又称简单随机抽样一般地，设一个总体含有N个个体，从中逐个不放回地抽取n个个体作为样本（n≤N），如果每次抽取使总体内的每个个体被抽到的机会都相等，就把这种抽样方法叫作简单随机抽样，示意图见8-6。随机抽样要求严格遵循概率原则，每个抽样单元被抽中的概率相同，并且可以重现。随机抽样常常用于总体个数较少时，它的主要特征是从总体中逐个抽取。如从30个总体中随机抽选10个作为样本，那么每个个体被抽中的概率均是1/30。值得注意的是，现在我们在科研过程中特别强调抽奖过程能够再现。那么如果要实现抽样过程能够再现，我们可以在编写抽样程序的时候，设定种子数，比如说采用SPSS软件或者SAS软件设定种子数。这样只要设定同样的种子数，然后进行同样的一个抽样，抽样结果都会一致。

图8-6　简单随机抽样示意

2．分层抽样分层抽样是指在抽样时，将总体分成互不相交的各个部分（层），然后按照一定的比例，从各层独立地抽取一定数量的个体，将各层取出的个体合在一起作为样本的方法。层内变异越小越好，层间变异越大越好。分层以后，在每一层进行简单随机抽样，不同群体所抽取的个体个数，一般有三种方法：

（1）等数分配法，即对每一层都分配同样的个体数；

（2）等比分配法，即让每一层抽得的个体数与该类总体的个体数之比都相同；

（3）最优分配法，即各层抽样比例不同，内部变异小的层抽样比例小，内部变异大的层抽样比例大，此种方法获得的样本均数或样本率的方差最小。而实施最优分配的基本条件是需要事先知道各层的标准差，然后利用各层标准和各层的人数来确定各层需要纳入的对象数，但实际中往往各层的标准差未知，所以应用最优分配法进行抽样的例子国内几乎没有。

分层抽样的优点：

（1）减小抽样误差，分层后增加了层内的同质性，因而可使观察值的变异度减小，各层的抽样误差减小。在样本含量相同的情况下，分层抽样总的标准误一般均小于单纯随机抽样、系统抽样和整群抽样的标准误。

（2）抽样方法灵活，可以根据各层的具体情况对不同的层采用不同的抽样方法。如调查某地居民某病患病率，分为城、乡两层。城镇人口集中，可考虑系统抽样方法；农村人口分散，可采用整群抽样方法。

（3）可对不同层内数据独立进行分析。分层抽样的缺点是若分层变量选择不当，层内变异较大，层间均数相近，分层抽样就失去了意义。

3．系统抽样系统抽样亦称为机械抽样、等距抽样，是按照一定顺序，机械地每隔若干个单位抽取一个单位的抽样方法。当总体中的个体数较多时，简单随机抽样比较难以执行。这时，可将总体分成按照某种规则分成均衡的几个部分，然后按照预先定出的规则，从每一部分中抽取一个个体，得到所需要的样本，这种抽样叫作系统抽样。

假设要从容量为N的总体中抽取容量为n的样本，可以按下列步骤进行系统抽样：

（1）先将总体N的每个个体编号。有时可直接利用个体自身所带的号码，如学号、准考证号、门牌号等。

（2）确定分段间隔K，对编号进行分段，当N/n（n是样本容量）是整数时，取K=N/n。

（3）在第一段用简单随机抽样确定第一个个体编号L，L＜=k。

（4）按照一定的规则抽取样本。通常是将L加上间隔k得到第2个个体编号（L+k），再加K得到第3个个体编号（L+2K），依次进行下去，直到获取整个样本。

4．整群抽样整群抽样又称聚类抽样，是将总体中各单位归并成若干个互不交叉、互不重复的集合，称为群；然后以群为抽样单位抽取样本的一种抽样方式。例如，调查高中学生患近视眼的情况，抽某高中某一个班做调查。应用整群抽样时，要求各群有较好的代表性，即群内各单位的差异要大，群间差异要小。整群抽样的优点是实施方便、节省经费；整群抽样的缺点是往往由于不同群之间的差异较大，由此而引起的抽样误差往往大于简单随机抽样。

整群抽样的实施步骤：

先将总体分为i个群，然后从i个群中随机抽取若干个群，对这些群内所有个体或单元均进行调查。抽样过程可分为以下几个步骤：

（1）确定分群的标注。

（2）总体（N）分成若干个互不重叠的部分，每个部分为一群。

（3）据样本量，确定应该抽取的群数。

（4）采用简单随机抽样或系统抽样方法，从i群中抽取确定的群数。

5．分层整群抽样是将分层抽样方法和整群抽样方法相结合来应用，是科研过程中非常常用的一种抽样方法。例如，调查某市高中学生患近视眼的情况，以某市各个区进行分层，在区内各选择1～2所高中，然后在高中里整群抽取1～2班进行调查。

6．多阶段抽样多阶段抽样（multistage sampling）是指将抽样过程分阶段进行，每个阶段使用的抽样方法往往不同，即将以上抽样方法结合使用，其在大型流行病学调查中常用，见图8-7。其实施过程为先从总体中抽取范围较大的单元称为一级抽样单元（primary sampling unit，PSU）（如省、自治区、直辖市），再从每个抽得的一级单元中抽取范围较小的二级单元（如县、乡、镇、街道），以此类推，最后抽取其中范围更小的单元（如村、居委会）作为调查单位。每个阶段的抽样可以采用单纯随机抽样、系统抽样或其他抽样方法，多阶段抽样可以充分利用各种抽样方法的优势，克服各自的不足，并能节省人力物力。多阶段抽样的缺点是在抽样之前要掌握各级调查单位的人口资料及特点。我国进行的慢性病大规模调查，大多数采用此种多阶段抽样的方法，如杨文英教授发表在《新英格兰杂志》上的中国成人2型糖尿病患病率调查。

图8-7　多阶段抽样示意

（二）非随机抽样

也称非概率抽样，常见于定性访谈中，如选择某个领域内的专家或者某个典型的患者，对他们进行的访谈，这种有目的的专门研究对象的方法就是非随机抽样。再比如我们在路边行走，有调查员进行某种产品市场占有率调查，调查员给路边行人问卷让其填写，这种在路边调查员自行选择研究对象的方法即是非随机抽样的方法。

1．便利抽样这可以认为是最简单的抽样方法，因为个人的选择是基于他们的可用性和参与意愿。假设我们要了解大学生的体育锻炼情况，研究者刚好有一些大学生的联系方式，便联系这些学生即选择这几个同学作为对象，这就是一种便利抽样的方法。便利抽样容易产生显著的偏见，因为抽样可能不能代表诸如宗教或人口的性别等具体特征。做动物实验时，随手抓几只老鼠出来，当作空白组，这也是便利抽样。便利抽样容易产生显著的偏见，因为抽样可能不能代表诸如宗教或人口的性别等具体特征。

2．配额抽样也称定额抽样指调查人员将调查总体样本按一定标志分类或分层，确定各类（层）单位的样本数额，在配额内任意抽选样本的抽样方式。配额抽样是事先对总体中所有单位按其属性、特征分类，这些属性、特征我们称之为“控制特性”。如医院调查中患者的性别、年龄、收入、职业、文化程度等。然后，按各个控制特性，分配样本数额，然后由调查人员在配额内主观判断选定样本。在这种抽样中，研究者根据预先确定的总体特征来选择样本。在配额抽样中，选择的样本可能不是人口特征的最佳代表。

3．判断抽样这也称为选择性抽样。在选择要求参加者时，取决于专家判断，不一定具有代表性。

4．滚雪球抽样现有的人被要求推荐更多他们认识的人，这样样本的大小就会像滚雪球一样增加，见图8-8。当抽样框架难以识别时，这种采样方法是有效的。假设随机选择了2个人作为样本，然后这2个人推荐了4个人，4个人推荐了19个人，依此类推。雪球抽样有很大的选择偏见风险，因为被引用的个体将与推荐他们的个体具有共同的特征。

图8-8　滚雪球抽样示意图

六、资料的收集

在现况研究中，研究设计阶段就需要明确资料收集的工具以及资料收集的方式，一经确定最好不要变更，在整个科研过程中保持先后一致，以避免同一研究收集的资料不同。具体而言，一般有4种方法：一是通过测定或检查的方法，如测定HBsAg是否阳性，血压是否正常等。二是观察法：在一定时间内由研究者对特定个体的心理、行为表现或活动、疾病症状及不良反应等进行观察，以获取所需信息。适合特殊人群：如精神病患者、植物人、老年性痴呆、危重患者等。三是提取既有报告或资料：化验报告，病历，监测资料，既有电子数据或数据库资料等。四是通过直接用调查表询问研究对象，让其回答或回忆暴露或疾病的情况。这种方法用得较为普遍，如吸烟、饮酒等情况的调查常用此法。资料收集过程中要注意，暴露（特征）的规定（定义）和疾病的标准均要明确和统一。下面重点介绍通过调查法获取信息的工具和方式。

（一）资料收集的工具

可以选择的方式有：

1．自行设计的调查问卷注意：自行设计的问卷也最好能够对问卷同一主题或维度下的条目进行文字效度、信度和结构效度，以及天花板地板效应等进行评价。设计过程中还需要考虑统计学的录入、合并以及整理分析方便，且建议进行预调查以不断完善和最终锁定调查差问卷。自行设计问卷是最常用的方法，问卷设计的要点包括以下方面：

（1）问卷名称：要精炼，体现问卷性质、研究目的和应用范围。

（2）卷首语：说明调查人员的身份、调查目的、调查方法、调查范围、对调查者和被调查者的要求、调查结果的保密措施和需要时间。或者是知情同意书：部分研究需要获得伦理委员会批准，则需要设计知情同意书。以上两个可以只保留一个。

（3）问卷填写细则或指导手册：对问题解答方法给予说明。可以整合在问卷中，可以单独成文。

（4）调查问题形式：封闭式：全是选择项。开放式：自行填写。半封闭半开放：部分选择，部分需要自行填写。

（5）调查问题的数量：精炼，需要的一个不能少，不需要的一个不能多。

（6）填写时间：一般面访30～90分钟，电话调查10～30分钟，信访调查10～20分钟。

（7）问题内容：同一类的问题放在一起。问题要明确，不能模棱两可。对问题中的变量加以明确定义，比如吸烟，吸或者不吸，每日吸烟多少支，而避免每天吸烟多吗之类的问题。问卷内容要简单，一个问题只询问一项内容，而不能整合在一起，比如你是否吸烟喝酒？

（8）问题顺序：敏感性问题一般放最后或者夹在其他不敏感问题之间。

（9）问题答案：正向反向均应有。如你赞成开设统计学课程吗？你反对开设循证护理课程吗？选择题的答案应涵盖所有可能，如在知识态度行为中，经常需要设一个不知道或不清楚选项。答案不能重复或部分重叠。比如0～1岁，1～2岁，1岁的该选择哪一个？这时需要定义。

（10）问卷形式：要求问卷字体和格式整齐划一。

（11）预调查：可以通过预调查获得信息，从而反馈修改问卷和填写说明等。

2．已经被广泛应用量表如生存质量量表：SF-36，WHO QOL-100和WHO-BREF艾滋病患者生存质量量表（MOS-HIV），消化道相关生存质量量表（Gastrointestinal Quality of Life Index，GIQLI）；再如疾病或症状测评量表：医院焦虑抑郁量表（Hospital Anxiety and Depression Scale，HAD）；其他如中医九种体质量表等。

3．资料提取表从数据库中提取既有报告或资料时，可以设计一份资料提取的表格，根据要提取的条目来设计。

（二）资料获取方式

需要确定资料获取的方式即调查方法。

1．面对面调查可以让调查对象自填，也可以一对一询问调查对象或对象监护人等，这种方式需要选择恰当的地点和恰当的时间。优点：容易找到被调查对象，多角度询问，调查者根据情况提高应答率、提高可信性，被调查者容易配合，被调查者可能会提供相关的证据如病历等资料。缺点：花费可能较高，产生偏性，比如对象的偏性或者环境如在医院里调查，患者可能配合就比较好，而且提供一些调查者希望得到的信息等。

2．电话访问通过电话询问调查对象，询问调查对象监护人等，需要选择恰当的时间。优点：方便快捷，随机抽号，获取研究对象较容易，采用电脑辅助电话调查系统，可以对问卷进行逻辑限制。缺点：部分人有选择性接听电话，导致选择偏倚；不一定能找到要调查的人，不能展示实物或图片。

3．信访通过发纸质邮件或快递，把调查表发放到被调查对象手中，以让调查研究对象或研究对象监护人填写，然后把调查表发回。优点：便宜，问卷可以展示部分材料如图片，填写问卷时间被调查者可以自由调节。缺点：时间成本高，应答率低。需要信件或电话跟踪和催促他们及时返回问卷。

4．网上调查或其他电子途径采集信息通过调查研究对象或研究对象监护人等获取资料，电子邮件（E-mail），网络会议（Netmeeting），网络电话（Internet Phone），论坛（BBS），网络实时交谈（IRC），网络寻呼机（ICQ），微信，问卷星等网络信息服务。优点：图文并茂，网上提交问卷，信息获得快捷；成本降低；节约纸张资源；免除数据录入；隐私性较强，可信性更高；自动跳转，不易漏掉题目，应答率较高。缺点：选择便宜，忽略文化水平低和上网不方便的人群。

七、资料的整理与分析

通过现况调查所获资料可按下列步骤进行整理分析：

（1）对原始资料逐项进行检查与核对，以提高原始资料的准确性、完整性、应填补缺漏、删去重复，纠正错误等，以免影响调查质量；

（2）建立电子数据库，并设立逻辑校对功能，将纸质数据转成电子数据；

（3）按照医学统计学的分析要求来整理原始资料，如组的划分、整理表的拟订；

（4）疾病或健康状态的归类、核实，疾病或健康状态需要有客观统一的标准，每个对象按照标准来界定；

（5）确定或者锁定符合条件的数据，进行进一步的统计描述和分析；

（6）数据排序、基本描述，观察总结数据分布特征，注意分类资料和数值资料的不同处理方式；

（7）根据研究目的进行分组分析以及多因素分析等，采用分类、分析、综合比较与各种归纳推理方法来研究分析疾病的规律性。

（8）注意统计表和统计图的整理和合理利用。

（9）结果的解释并提交报告，结果发表和汇报。

横断面资料分析和下结论时的注意要点：①基于横断面研究的关联分析是探索。我们所发现的与结局事件仅仅是关联，一般情况下不能直接下存在关联的因素是“影响因素”“危险因素”“潜在病因”甚至是“病因”的结论。我们在讨论部分，可以适当地合理推测，但结论建议只能用“关联”来报告。横断面研究观察的是个体在同一时间点，各种指标的现状，没有时间前后，因此不能说“因果”，只能说“相关”。举个例子：假设做横断面调查的时候发现，很多吃降压药的人，比不吃药的人血压还高。这个时候能够得出吃降压药会升高血压吗？当然不能，真实原因是血压高了才会去吃降压药。没有先后，就没有因果。②不建议采用先进行单因素分析筛选变量，然后把单因素有统计学意义的结果放入多因素回归模型的分析思路。因为我们无法确定我们的因素都是原因变量，以下2类因素可以例外。一是已有文献报道的病因（结局的危险因素），同时这些病因指标应该是稳定的，即不会随结局的发生与否而改变。二是从时间上，某一个因素必然是发生在结局之前的，且在相当长时间内一直稳定不变，比如患者的基因、家族史、居住地。同时，在第二种情况，我们还需要在分析时排除选择偏倚。如家里有人得过类似疾病（发生过类似结局）的患者可能更容易来就诊，也会带来这一指标和结局直接存在关联，这一关联有可能是因为更容易就诊而导致的偏倚。因此当我们纳入这一条里的指标时，要仔细考虑和衡量潜在的偏倚风险。如果不存在上述问题，那么我们可以考虑将它纳入模型。

八、常见偏倚及其控制

调查或研究结果与真实情况不符，即样本的统计量不能代表总体参数，则称之为研究结果和真实结果之间产生了偏倚。抽样调查结果出现偏倚，其最有可能发生在抽样过程中。偏倚产生的常见原因如下：

（一）选择偏倚

会导致研究样本缺乏代表性而使研究结果不能外推。

（1）主观选择研究对象，即选择研究对象具有随意性；将随机抽样当作随意抽样。

（2）任意变换抽样方法，如根据出院号来随机选择（抽样）时，就不能改用入院号等其他方法来抽样。

（3）调查对象不合作或因种种原因不能或不愿意参加调查从而降低了应答率，此种现象称为无应答偏倚。若应答率低于10%就较难以调查结果来估计整个研究对象的状况。

（4）在横断面调查研究中，所调查到的对象均为幸存者，无法调查死亡的人，因此不能全面反映实际情况，有一定的局限性和片面性，此种现象又称为幸存者偏倚。

（二）信息偏倚

资料收集过程中所产生的导致研究对象结果与真实结果之间产生差异的原因都可以归为信息偏倚。

1．回忆偏倚询问调查对象有关问题时，由于种种原因回答不准确从而引起偏倚（报告偏倚）或调查对象对过去的暴露史或疾病史等回忆不清，特别是健康的调查对象由于没有疾病的经历，而容易将过去的暴露等情况遗忘，而导致回忆偏倚。

2．调查偏倚调查员有意识地深入调查某些人的某些特征，而不重视或马虎对待其他一些人的这些特征而导致的偏倚，则称为调查偏倚。

3．测量偏倚在资料收集、病患等情况的测量中由于测量工具、检验方法不正确，化验技术操作不规范等导致的系统误差则会介入测量偏倚。此外，在数据分析中，则要注意有无混杂因素的存在及其影响程度。

（三）质量控制

现况研究或其他类型的研究中均需要调查资料的质量控制，其目的是尽量减少偏倚的产生，能正确地、真实地描述事物、事件的真实情况。有效的质量控制的前提是研究设计时要反复论证，尽量严密，并应考虑到调查中或调查结束时对资料进行质量评价的方法和指标。如调查结束时，随机抽取一定数量的调查表进行重复调查，比较两次调查资料的一致性，或在调查过程中，对调查表中若干问题进行电话回访复查，均是非常有效的评价调查资料质量好坏的方法。在现况研究中，针对各种偏倚可能的来源，做好预防与控制，也是一个调查成功与否的重要环节。具体而言，现况研究中应着重强调以下几个方面：

1．抽样过程中严格遵照抽样方法的要求，确保抽样过程的随机化原则的完全实施；提高研究对象的依从性和受检率；

2．调查准备过程中正确选择测量工具和检测方法，包括调查表的编制等；组织好研究工作，调查员一定要经过培训，统一标准和认识；

3．资料收集过程中资料收集过程中的质量控制非常重要，基本的要求有如下几点：

（1）收集资料的方法工具等一经确定，不可更改。

（2）做好资料的复查、复核等工作。收集资料过程中安排监督员阅读数据表和到现场进行考察以保证数据的完整性和数据的质量。及时修正资料收集过程中的编码、编译以及资料填写错误。

（3）如果资料是在现场录入的，修改时保留修改记录。如果不是在现场录入的，则检查每个变量，以排除错误值、极端值和不合逻辑的分布资料，并做出合理性的修改（如儿童死亡时间早于出生时间等，则是不合逻辑的）。

注意：发现错误时，尽量找原始资料核对，不能随便猜想，保证一致性，尽快改正错误，记录校正记录。

4．选择正确的统计分析方法，注意辨析混杂因素及其影响。

九、研究的优缺点及局限性

（一）优点

现况研究中常用的是抽样调查。抽样调查的样本一般来自人群，即从一个目标群体中，随机地选择一个代表性样本来进行暴露与患病状况的描述研究，故其研究结果有较强的推广意义，以样本估计总体的可信度较高。其次，现况研究是在收集资料完成之后，将样本按是否患病或是否暴露来分组比较，即有来自同一群体的自然形成的同期对照组，使结果具有可比性。最后，现况研究往往采用问卷调查或采样检测等手段收集研究资料，故一次调查可同时观察多种因素，其在疾病病因探索过程中，为不可或缺的基础工作之一。

（二）缺点

现况研究与分析性研究的一个明显区别是其对特定时点和特定范围的规定，因此调查时疾病与暴露因素一般同时存在，难以确定先因后果的时相关系。再则，现况研究调查得到的是某一时点的是否患病的情况，故不能获得发病率资料，除非在一个稳定的群体中，连续进行同样的现况调查。另外，如果在一次现况研究进行过程中，研究对象中一些人若正处在所研究疾病的潜伏期或者临床前期，则极有可能会被误定为正常人，使研究结果发生偏倚，低估该研究群体的患病水平。

十、横断面研究在中医研究领域的应用

（一）中医证候分布类研究

通过几千年的发展，辨证论治成为中医最具特色的诊断和治疗方法。辨证论治就是突出了个性化的中医思路。强调以人为本。辨证论治以阴阳为总纲，分八纲辨证、脏腑辨证、六经辨证、卫气营血辨证等。中医证候是指疾病发生和演变过程中某阶段以及患者个体当时所处特定内、外环境本质的反映，它以相应的症、舌、脉、形、色、神表现出来，能够不同程度地揭示病因、病位、病性、邪正盛衰、病势等病机内容。了解中医的证候分布以促进辨证，进而指导临床实践工作是中医药研究的一个重要方向。要了解某一类患者有哪些症候，某个疾病主要的辨证分型有哪几类以及各个类型的分布多寡，则可以采用横断面研究去进行初步的调查。如基于真实世界挖掘王平辨治失眠经验，该文通过横断面研究，报告失眠纳入患者常见伴发症状排名前10位的分别是头晕、烦躁易怒、头痛、健忘、纳差、神疲乏力、胸闷、腰膝酸软、口干、面色少华，其中头晕、烦躁易怒、头痛出现频率在80%以上，健忘、纳差、神疲乏力出现频率在50%以上。失眠纳入患者辨证分型多见阴虚火旺证、气血亏虚证、心脾两虚证、痰瘀蕴结证、肝气郁滞证和心肝火旺证，且其比例均在50%以上。

（二）中医体质量表及体质分布研究

中医体质是中医基础理论的重要组成部分，是一门新兴学科。北京中医药大学的研究人员对中医体质学从基础理论、实验研究、临床运用等方面进行了全面、系统的研究，并开发了中医九种体质量表。研究团队通过一系列的横断面调查研究方法研发了中医体质量表，并且确定了9种主要的中医体质，并对不同人群的体质分布进行了调查研究，进行归纳整理，确定不同人群中九种体质的大概分布规律。

（三）中医用药规律研究

如张仲景《伤寒杂病论》中关于疾病中药的用药规律可能对临床的实践指导具有重要价值。在临床中，实际患者的方药具体用药情况如何？是否与中医基础理论相符合，不同流派组方和用药量有何不同，则可通过横断面调查的方法进行归纳总结，与中医基础理论相佐证。也可根据患者的用药信息，进行疾病的用药规律挖掘分析，进而与中医基础理论指导的治则治法相比对，进而促进中医基础理论的现代化发展。

（四）中医在亚健康诊断治疗方面的调查研究

很多学者提出过亚健康的评价方法或诊断标准，但因为亚健康并非一个器质性疾病，因此更多地需要从症状、功能和适应力等偏重于中医诊断要素的方面加以判定。2007年，中华中医药学会发布了《亚健康中医临床指南》，从中医的角度对亚健康的概念、常见临床表现、诊断标准等进行了明确描述，产生了较为广泛的影响。中华中医药学会发布的《亚健康中医临床指南》指出：亚健康是指人体处于健康和疾病之间的一种状态。处于亚健康状态者，不能达到健康的标准，表现为一定时间内的活力降低、功能和适应能力减退的症状，但不符合现代医学有关疾病的临床或亚临床诊断标准。国内对亚健康的研究多限于横断面调查，使用的工具多为自评量表或调查问卷。调查涉及社区居民、医务人员等不同人群。由于亚健康定义不统一、应用的调查问卷或量表不统一，亚健康检出率差别也较大，在20%～80%。亚健康的检出率在不同性别、年龄、职业上有一定差异。也通过横断面研究提示导致亚健康的主要原因可能有：饮食不合理、缺乏运动、作息不规律、睡眠不足、精神紧张、心理压力大、长期不良情绪等。

第二节 横断面研究的设计和实施