中医临床真实世界研究最新章节_刘建平著

第三节　真实世界研究环境下设计横断面研究的要点

横断面研究是真实世界研究中常用且适合应用的方法。下面着重介绍真实世界环境下开展的横断面研究的设计要点和特殊考虑。

一、确定研究目的

真实世界环境下的横断面的研究目的和通常所开展的横断面研究的目的的设定方式有所不同。真实世界环境下的横断面研究，需要考虑真实世界环境具备什么样的数据，能够回答什么样的问题，进而，根据真实世界数据的现状去确定横断面研究的目的。换句话说，真实世界的研究更倾向于当前的数据和环境驱动。但是真实世界的横断面研究也是需要先确定研究目的，因为只有确定了研究目的，下一步才好依据于真实世界研究去设计研究方案，去设计相应的调查表去提取相应的数据，进而进行分析处理，得到研究结果。

真实世界横断面研究目的确定同样需要考虑横断面研究设计的研究范围和因果推断能力，即横断面研究能解决什么问题，同时还要考虑选题的科学性、可行性、创新性。横断面研究能够解决的问题包括如下几种：

（1）描述某医疗机构疾病谱或用药规律等，如某医院就诊的上消化道不良人群的幽门螺杆菌感染率、清除率、耐药率等。

（2）分析影响疾病预后和就医行为有关的因素，如以医院就诊记录的患者基本特征信息以及就诊结局信息进行分析。

（3）用于卫生服务需求和政策制定的研究，如测量某种疾病管理或者某种卫生政策维持需要的资金投入。

（4）用于医疗或预防措施及其效果的评价，如医院某种干预措施实施后的效果与实施前的效果比较，进而评价干预措施的效果。

（5）用于社区卫生规划的制定与评估，如根据卫生资源的配置调查和患者医务人员的需求和反馈，制订卫生规划。

（6）用于疾病预测和转诊行为的分析，如基于医保或疾病注册登记系统相关信息的分析评估进行预测和患者就诊行为分析。

二、确定研究类型

横断面调查有普查和抽样调查两种基本方式，有时候也将普查和抽样调查相结合来用。但真实世界研究基于现有的数据，在数据采集上具有优势和便捷，在可能的情况下建议样本量越大越好，能够收集到的即纳入进行分析。但是横断面研究需要根据研究目的来选择相应的方法。以医院卫生信息系统（hospital information system，HIS）里的患者记录作为研究对象来源，如果选择一部分医疗机构的数据而不是所有的机构信息进行分析，如此则是抽样研究。抽样调查就可以解决的问题建议尽量选择抽样调查的方法，毕竟能够节省相当部分的人力、物力和财力的投入。当然具体选择普查还是抽样调查还需要考虑研究目的和经费、人力、物力各方面的情况综合选择。

三、确定研究对象

真实世界研究的研究对象可以从既有的信息系统或数据库中选择，因此要根据研究目的明确研究对象的诊断标准、纳入标准和排除标准。然后设定相应的筛选参数，从信息系统或者数据库中选出符合条件的研究对象。

四、确定样本量

普查则把相应信息系统或者注册数据库的所有记录导出进行分析，因此无需样本量的计算。而抽样调查则需要根据研究目的采用相应的方法恰当估计样本量。真实世界研究样本量有时候我们可不按照传统样本量的估算方法，一般情况下样本量都是远远高于传统横断面研究样本量估算出来的数值。但依然建议首先确定研究目的，然后基于研究假设和统计学参数应用公式进行样本量的估算，以保证每个研究假设的足够样本量。在此基础上，还需要考虑信息或者注册系统数据的异质性，所以真实世界研究的样本量即便按照传统横断面研究进行估计，也需要在估计的基础上扩大，因为系统数据研究对象的个体差异大，异质性较大，随机误差可能较大。同时还要考虑其他的因素。比如抽样方法，不同的抽样方法，抽样误差的大小不同，如果是整群抽样则比完全随机样本量要相对大一些，同时还要考虑关注的研究结果的个数，考虑多因素分析进行相应的样本量的扩充。

五、确定抽样方法

真实世界研究若是基于现有数据进行抽样，可以选择的抽样方法较多，甚至完全随机抽样都很容易执行。因此可以优先选择抽样误差小的方法进行抽取样本。但是抽样过程要清晰准确记录，如从哪些数据系统或注册库提取的，总编码多少，抽取编码多少个，如何抽取的。并且抽样序号的产生以及抽取过程都要留记录。也即如果不同的研究者从同样的数据库，应用相同的种子数，采用同样的规则抽取结果应该一致。

六、资料的收集

真实世界研究可以基于现有系统或注册库提取资料进行分析。因此资料收集的内容需要在研究开始时明确，现有的系统或数据库中有研究需要的变量且变量信息填写尽量完整。资料收集的方式则要考虑现有系统和注册库中的信息能否直接导出，如果能直接导出最好，如果不能直接导出，则需要设计资料提取表，进行资料提取，然后进一步分析。该方法的优点是无论信息内容多少，则无须考虑研究对象的依从性，因为信息已经存在，但是也要遵循需要的不能少，不需要的不要多的原则，否则则会增加资料提取和统计分析人员的工作负担。虽然不需要对患者进行调查，但每个条目依然需要细则说明，确保提取出的资料按细则说明进行统一整理和编码。如出生日期等系统的填写是否统一，有无逻辑错误等。问题的顺序以及答案则注意对应正确即可。

七、资料的整理与分析

通过系统或注册库提取出的资料可按下列步骤进行整理分析：

（1）首先核对各个库抽取对象的数量和编码是否正确。

（2）对抽取出的原始资料逐项进行检查与核对，以提高抽取资料的准确性、完整性。

（3）如果是资料提取表先提取纸质版本的，则需要建立电子数据库，并设立逻辑校对功能，将纸质数据转成电子数据；如果是直接导出电子版本的则注意转入统计分析数据库。

（4）按照研究目的来整理原始资料，如组的划分、整理表的拟订。

（5）疾病或健康状态的归类、核实，疾病或健康状态需要有客观统一的标准，每个对象按照标准来界定。

（6）锁定符合条件的数据，进行进一步的统计描述和分析。

（7）数据排序、基本描述，观察总结数据分布特征，注意分类资料和数值资料的不同处理方式。

（8）根据研究目的进行分组分析以及多因素分析等，采用分类、分析、综合比较与各种归纳推理方法来研究分析疾病的规律性。

（9）注意统计表和统计图的整理和合理利用。

（10）结果的解释并提交报告，结果发表和汇报。

（11）横断面资料分析和下结论时要慎重，考虑研究本身在病因推断中的局限性，慎用危险因素、保护因素等，建议用某因素与某疾病相关等界定结果。多因素分析要注意结论的科学和合理性。而不是单纯从数学模型上看有无统计学意义的结果。

八、常见偏倚及其控制

研究结果和真实结果之间的差异即研究的偏倚。真实世界研究的偏倚来源更多，且不好控制。最常见的是选择偏倚、信息偏倚和混杂偏倚。

（一）选择偏倚

本来真实世界研究大部分对象来源于信息系统或注册库，这个系统和注册库人群相对于社区人群即有偏倚。所以选择性偏倚不可避免。同时更要杜绝以下情况，尽大程度降低选择偏倚。

（1）尽量避免非随机抽选研究对象，即选择研究对象具有随意性；将随机抽样当作随意抽样。

（2）变换抽样方法，如根据系统里的编码来随机选择（抽样）时，就不能改用入院号等其他方法来抽样。

（3）数据库中部分信息缺失的对象，不应直接剔除，在评估后决定是否留在数据库中分析，同时要分析排除的对象和纳入的对象的特征一致性，主要信息完整和不完整的对象的特征一致性，来评判最终分析的研究对象的代表性。

（4）在真实世界横断面调查研究中，所调查到的对象均为进入系统的对象，无法调查未进入系统的人，因此不能全面反映实际情况，有一定的局限性和片面性。

（二）信息偏倚

各种原因导致的研究对象结果与真实结果之间产生的差异即为信息偏倚。

（1）回忆偏倚：信息系统或注册库里的信息部分也来自对象既往的回忆信息，由于种种原因回答不准确从而引起偏倚（报告偏倚）或调查对象对过去的暴露史或疾病史等回忆不清等都会导致回忆偏倚。

（2）调查偏倚：信息系统或注册库的调查员有意识地深入调查某些人的某些特征，而不重视或马虎对待其他一些人的这些特征而导致的偏倚，则称为调查偏倚。

（3）测量偏倚：信息系统或注册库在资料收集、病患等情况的测量中由于测量工具、检验方法不正确，化验技术操作不规范等导致的系统误差则会介入测量偏倚。

（三）混杂偏倚

指暴露因素与疾病发生的相关（关联）程度受到其他因素的歪曲或干扰。鉴于真实世界研究数据变量的异质性较高，而且可能很多未知的因素均采集在数据库中，很可能存在一些潜在的未知的因素会歪曲某个因素和疾病之间的真实关联。因此混杂普遍存在于真实世界的研究。处理混杂的方法有经典的多因素分析如回归分析方法，倾向评分的方法和工具变量的方法等。比如血脂的变化和心血管结局之间到底有没有关联，那么这样的一个关联在排除混杂之后是多少？即可用上述方法进行控制混杂因素后得到结果。控制混杂偏倚的方法学也非常重要，而且要正确恰当地运用混杂偏倚的控制方法，有可靠的分析的过程，才可以科学控制混杂。

第三节 真实世界研究环境下设计横断面研究的要点