真实世界研究,即在真实世界环境下收集与患者有关的数据(即真实世界数据,real world data,RWD),通过分析,获得医疗产品的使用价值及潜在获益或风险的临床证据(即真实世界证据,real world evidence,RWE)。简而言之,真实世界数据产生真实世界证据的过程就是真实世界研究。围绕科学问题,综合运用流行病学、生物统计学、循证医学等多学科方法技术,利用真实世界数据开展的研究统称真实世界研究。
开展真实世界研究必须具备高质量的数据与治理、设计严谨的研究方案、恰当的统计分析与结果解释。真实世界证据源于真实世界数据的分析,但并非所有的真实世界数据经分析后都能成为真实世界证据,只有满足适用性的真实世界数据才有可能成为真实世界证据。真实世界证据可用于支持药物监管决策,包括为新药注册上市提供有效性和安全性证据,为已上市药物的说明书变更提供证据,以及为药物上市后要求或再评价提供证据等。
充分利用真实世界数据开展药品实际应用综合分析,可形成药品临床应用安全性、有效性、经济性及适宜性的价值判断(即为真实世界证据),是药品综合评价中一种重要的评价方法。药品综合评价领域真实世界研究的开展需要结合待评价药品领域主要决策问题,遵循《真实世界证据支持药物研发与审评的指导原则(试行)》,分析特定情形下使用真实世界研究的必要性和设计选择,综合运用观察性研究和试验性研究等方法,规范地收集和分析质量佳、来源稳定可靠的患者相关临床处方、疾病诊治过程、治疗结果及费用等数据信息。
真实世界数据是指真实世界环境中患者群体的健康信息,以及诊断、治疗、保健等相关数据。我国的真实世界数据来源包括卫生信息数据、医保支付数据、疾病登记数据、公共卫生监测数据、自然人群队列数据等。医疗卫生机构在药品综合评价中使用最多的真实世界数据包括医疗卫生机构内部数据、公共来源数据和医患来源数据。
医疗卫生机构内部数据包括:医院信息系统(hospital information system,HIS)中患者电子病历(electronic medical records,EMR),实验室信息管理系统(laboratory information management system,LIS)与影像归档和通信系统(picture archiving and communication system,PACS)等信息系统中的检验检查结果,个人体检健康档案,费用结算记录等医疗卫生机构内部存储的常规数据信息。这些数据属于卫生信息数据范畴,主要来源于临床诊疗过程中的记录,存储量大、类型多,涵盖临床结局等变量范围较广,在真实世界研究中应用也较广。
公共来源数据包括药品安全性主动监测数据、疾病登记系统数据、临床队列研究数据、组学研究数据、药品供销及采购数据库、人口死亡登记数据等。药品安全性主动监测数据以国家药品不良反应监测哨点联盟(China ADR Sentinel Surveillance Alliance,CASSA)建立的中国药物警戒系统为代表,利用哨点医院临床诊疗数据建立的药品及医疗器械安全性主动监测和评价系统获得药品不良反应报告数据,可以用于药物安全性研究及药物流行病学研究。疾病登记数据库通常以特定患者为研究人群,整合临床诊疗等数据进行长期随访研究,有较丰富的结局指标,并且具有准确性高、结构化强和人群代表性好等优点,可用于药物有效性、安全性等评价,具有较好的适用性。重要的疾病登记数据库有全国肿瘤登记中心、全国血液净化病例信息登记系统、全国传染病登记系统、中国国家罕见病注册系统、中国卒中登记研究平台等。临床队列研究数据主要来源于文献的大规模人群队列研究。队列研究数据标准统一、信息化共享、时间跨度长和样本量大,利用此类数据可以帮助构建疾病风险模型,为药物使用的目标人群定位提供支持。组学数据库可以作为临床数据的补充,拼接临床数据后用于研究。我国的组学数据库包括生命与健康大数据中心(BIG Data Center,BIGD)和蛋白质组综合资源数据库(iProX)等。人口死亡登记数据包含死亡医学证明中的死亡原因、死亡时间等,死亡信息的收集和记录可用于药物安全性研究的数据补充。
医患来源数据包括患者随访数据、患者报告结局(patient-reported outcome,PRO)等。临床医生以临床研究为目的,会对一些慢性病(如乙肝、阿尔茨海默病、糖尿病、癌症等)进行长期随访登记,以收集院内电子病历无法涵盖或没有记录和报告的出院后患者的重要临床指标,如药物不良反应、临床终点、生存期等信息,长期随访所形成的数据可以与病历中的数据进行整合,形成患者生命周期的完整真实世界数据,这是药品评价不可多得的有效性和安全性数据来源。患者报告结局是来自患者自身测量与评价疾病结局的指标,近年来在我国药物评价体系发展中越来越重要。前面我们收集最多的是临床维度的数据,即从研究人员(医务人员)的视角与定义去形成数据,而患者报告结局可以很好地形成患者维度的数据,将这两种维度数据整合成完整的数据流,就能开展更“真实”的真实世界研究。
随着医疗信息技术的不断发展,国内真实世界数据的类型和来源会不断出现,但是否能用于药品综合评价,还有赖于综合评价需要解决的问题以及数据的适用性。
真实世界数据的适用性评价应基于特定的研究目的和监管决策用途进行。
适用性评价可分为两个阶段:第一阶段从可及性、伦理合规、代表性、关键变量完整性、样本量和源数据活动状态等维度,对源数据进行初步评价和选择,判断其是否满足研究方案的基本分析要求;第二阶段包括数据的相关性、可靠性,以及采用或拟采用数据治理机制(数据标准和通用数据模型)评价分析经治理的数据是否适用于形成真实世界证据。
满足基本分析要求的源数据至少应具备以下条件。
在研究期限内,数据库应是连续处于活动状态的,所记录的数据均是可及的,即具有数据的使用权限,并且可被第三方特别是监管机构评估。
源数据的使用应通过伦理审查,符合法规要求,符合数据安全与隐私保护要求。
数据应是纵向的,而不是横断面的。
源数据应具有一定的覆盖度,至少应包括与研究目的相关的结局变量、暴露/干预变量、人口学变量和重要的协变量。
源数据通常是不完整的,但应确保一定的完整性,即考虑数据治理后,保证在人群有代表性的前提下,即使样本量减少,仍能满足统计分析所需的足够检验效能。
样本量应足够大,并充分考虑数据治理后源数据例数明显减少的情况,以保证统计分析所需的样本量。
经治理的真实世界数据的适用性评价主要根据数据相关性和可靠性两方面进行。
相关性评价旨在评估数据是否与所关注的临床问题密切相关,重点关注关键变量和信息的覆盖度、暴露/干预和临床结局定义的准确性、目标人群的代表性和多源异构数据的融合性。其意义在于数据是否可以充分回答与研究目的相关的临床问题。
(1)关键变量和信息的覆盖度 真实世界数据应包含与临床结局相关的重要变量和信息,如药物使用、患者人口学和临床特征、协变量、结局变量、随访时间、潜在安全性信息等。如果上述变量存在部分缺失,那么需充分评估是否能够使用可靠的统计学方法进行填补,以及对因果推断结果可能造成的影响。
(2)暴露/干预和临床结局定义的准确性 选择并准确定义具有临床意义的结局以及准确定义暴露/干预,对真实世界研究是至关重要的,其应与研究问题的临床意义或理论依据相一致。临床结局的定义应包括所基于的诊断标准、测量方法及其质量控制(如果有)、测量工具(如量表的使用)、计算方法、测量时点、变量类型、变量类型的转换(如从定量转换为定性)、终点事件评价机制(如终点事件判定委员会的运行机制)等。当不同数据源对临床结局的定义不一致时,应定义统一的临床结局,并采用可靠的转换方法进行转换。暴露/干预的定义应考虑其时间窗的合理性。
(3)目标人群的代表性 真实世界研究较传统的随机对照试验(randomized clinical trial,RCT)的优势之一是具有更广泛的目标人群的代表性。因此,在制定纳入/排除标准时,应尽可能地符合真实世界环境下的目标人群。
(4)多源异构数据的融合性 由于真实世界数据在很多情况下属于多来源的异构数据,因此需要将不同来源的数据在个体水平进行数据的链接、融合和同构处理。因此,应通过身份标识符进行个体水平的准确链接,以支持通用数据模型或数据标准对数据源中的关键变量进行整合。
真实世界数据的可靠性与采集过程的严谨性息息相关,数据采集前需要确定采集范围和采集变量,同时需制订数据词典、采集方法、数据流转方式、储存介质格式等。数据的可靠性主要从数据的完整性、准确性、透明性、质量控制和质量保证几个方面进行评价。
(1)完整性 真实世界数据的完整性是指数据信息的缺失程度,包括变量的缺失和变量值的缺失。当特定研究的数据缺失比例明显超过同类研究的比例时,尤其在涉及研究的关键变量时(如影响研究结局的诸多重要预后协变量缺失或变量值缺失),会加大研究结论的不确定性,此时需要慎重考虑该数据能否作为支持形成真实世界证据的数据。对缺失原因需要进行详细分析,并根据缺失机制的合理假设采用恰当的方法填补缺失数据。
(2)准确性 真实世界数据的准确性不仅限于原始数据记录的准确性,同时需要明确数据采集的准确性(如是否建立规范、统一的数据采集方法,是否核查不同来源数据的准确性)、一致性(包括数据库内部的相关数据标准、格式和计算方法等)、合理性(变量数值的唯一性、合理的区间和分布、相关变量的预期依从关系、时变型变量是否按预期改变等),以及数据治理的恰当性(如是否建立规范、统一的数据治理流程,包括数据安全性处理、数据链接、数据清洗、数据编码、数据结构化、数据传输等,是否核查数据治理算法的正确性)。数据的准确性极为重要,通常需要根据较权威的参照进行识别和验证,例如终点事件是否经独立的终点事件判定委员会做出判断。
(3)透明性 真实世界数据的透明性指数据来源、数据收集与治理方案和过程清晰、透明。同时,应确保分析数据中的关键暴露/干预变量、协变量和结局变量能够追溯至源数据,并反映数据的提取、清洗、转换和标准化过程。数据治理标准化操作程序与验证确认文件要清晰记录和存档,尤其反映数据可信性的问题,如数据缺失程度、变量值域、衍生变量计算方法和映射关系等。数据治理方案应事先根据研究目的制定,确保数据治理过程与治理方案保持一致。此外,数据的透明性还包括数据的可及性、数据库之间的信息共享和对患者隐私的保护方法的透明。如果使用算法来定义研究队列,那么算法的开发及其验证也应该是透明的。
(4)质量控制 质量控制是指用以确证数据治理的各个环节符合质量要求而实施的技术和活动。质量控制评价包括但不限于:数据提取、安全处理、清洗、结构化,以及后续的存储、传输、分析和递交等环节是否均有质量控制,以保证所有数据是可靠的、数据处理过程是正确的;是否遵循完整、规范、可靠的数据治理方案和计划,并依托于相应的数据质量核查和系统验证规程,以保障数据治理系统在正常和稳态下运行,确保真实世界数据的准确性和可靠性。
(5)质量保证 质量保证是指预防、探测和纠正研究过程中出现的数据错误或问题的系统性措施。真实世界数据的质量保证与监管合规性密切相关,应贯穿于数据治理的每一个环节,考虑的内容包括但不限于:是否建立与真实世界数据有关的研究计划、方案和统计分析计划;是否有相应的标准操作规程;数据收集是否有明确流程和合格人员;是否使用了共同的定义框架,即数据字典;是否遵守收集关键数据变量的共同时间框架;用于数据元素捕获的技术方法是否符合事先指定的技术规范与操作程序,包括各种来源数据的集成、药物使用和实验室检查数据的记录、随访记录、与其他数据库的链接等;数据输入是否及时、传输是否安全;是否满足监管机构现场核查调阅源数据、源文件等相关要求。
真实世界研究在药品有效性和安全性评价中的应用比较广泛,且由于真实世界数据是患者在院期间所产生的,因此使用真实世界数据分析可增加研究评价的普适性和真实性。但真实世界数据也存在数据指标不全、不良反应遗漏或随访信息不完整等不足,因此真实世界数据分析常被作为药品临床综合评价的一种辅助和补充方法。当然,除了支持安全性和有效性评价外,真实世界数据分析还可以支持经济性、适宜性、可及性等维度分析。围绕基本用药决策需求,结合临床现实,规范、科学、合理地设计并实施临床研究,以推动真实世界数据在药品临床综合评价中的运用并发挥其优势。
真实世界研究通常会围绕病因、诊断、治疗、预后及临床预测等相关的研究问题展开。病因研究主要是研究危险因素与疾病之间的关系,同时研究引起人体发病的机制。诊断研究主要是研究某类新方法对特定疾病诊断的准确度,以判断新诊断方法的临床价值。治疗性研究主要是研究某类治疗方案对特定疾病的疗效及副作用,包括疗效研究和不良反应研究两方面。预后研究是对疾病发展的不同结局的可能性进行预测,以及对影响其预后的因素进行研究,主要包含对疾病的预后状况进行客观描述,对影响预后的因素进行研究和对健康相关生活质量研究三大类。临床预测研究则是寻找出最佳的对疾病诊断或疾病转归的预测指标或症状等,主要包括诊断预测研究和预后预测研究。除上述研究外,真实世界研究也会涉及药物经济学研究等其他研究类型。真实世界研究设计类型主要分为观察性研究和试验性研究,其中观察性研究进一步分为描述性研究(病例个案报告研究、单纯病例研究、横断面研究)和分析性研究(病例对照研究、队列研究),试验性研究即实效性临床试验(pragmatic clinical trial,PCT)。基于真实世界数据分析的药品临床综合评价可以根据研究人员能否控制治疗成本或干预措施进行不同种类的研究:当研究人员能控制治疗成本或干预措施时,可以进行随机或非随机实效性临床试验;当研究人员不能控制治疗成本或干预措施时,可以进行观察性的横断面研究、队列研究或病例对照研究等。
下面着重从常见研究类型对应的临床应用场景、优劣势、研究要素等进行比较阐述。
PCT又称实用性临床试验,是指在常规或尽可能接近常规的临床实践中开展的临床试验,是介于RCT和观察性研究之间的一种研究类型。它与RCT的不同之处是:①PCT的干预既可以是标准化的,也可以是非标准化的;②既可以采用随机分组方式,也可以自然选择入组;③受试病例的入选标准较宽泛,对目标人群更具代表性;④对干预结局的评价不局限于临床有效性和安全性,通常选择对患者或研究结果使用者有重要临床意义的指标,如可以选择治疗依从性、卫生经济性等;⑤PCT一般使用临床终点,而避免使用传统RCT中可能使用的替代终点;⑥可以同时考虑多个对照组,以反映临床实践中不同的标准化治疗;⑦一般不设安慰剂对照;⑧在大多数情况下不采用盲法,但对如何估计和纠正由此产生的测量偏倚,需给予足够的重视;⑨数据的收集通常依赖于患者日常诊疗记录;⑩注重评价远期结局,随访时间较长,随访频率通常与常规临床随访一致。与观察性研究的不同之处是,PCT是干预性研究,尽管其干预的设计具有相当的灵活性。
PCT的研究对象是在常规临床实践中采取干预措施的患者群体,本身存在复杂性,可能包含多种合并症及合并治疗。而采取的干预措施在常规临床实践保持较好一致性的情况下,也会因为不同干预者的诊疗技术和经验而有差异。因此,PCT的研究设计需要根据其特点进行全面考虑。设计PCT时应考虑以下因素:①收集到的数据是否适用于支持形成真实世界证据;②治疗领域和干预措施等是否符合各种形式的常规临床实践;③是否具有足够的可以用于评价的病例数(特别是临床结局罕见的情况);④参与PCT的各试验中心甚至不同的数据库之间对终点的评价和报告方法是否一致;⑤是否采用随机化方法控制偏倚;⑥当盲法不可行时,应考虑非盲对结局变量(特别是患者报告的结局)可能产生的影响,可使用不受治疗分组影响的终点(如卒中、肿瘤大小等),以减少非盲带来的可能偏倚。
PCT纳入真实世界患者,限制相对少但异质性相对较大;实施过程相对灵活,更符合日常医疗实际,更能为患者所接受;采用随机化方法减少混杂因素的影响,提高组间可比性,从而提供稳健的因果推断;在更接近真实临床实践环境下开展的研究,PCT所获得的证据在多数情况下被视为较好的真实世界证据,结果外推性较好;但PCT的局限性在于需要考虑所有可能的潜在因素的影响,包括各种偏倚和混杂因素的影响,故其研究设计和统计分析较为复杂,所需的样本量通常远超RCT设计。
横断面研究是研究特定时间与特定空间内人群有关变量与疾病或健康状况的关系。由于所获得的资料是在某一特定时间内收集的,好似时间的一个横断面,故称为横断面研究,又称现况调查。横断面研究常用于描述疾病(或症状、体征)等的自然转归、诊断、治疗、预后等方面的人群特征,以便找出规律,指导临床实践。
研究方法一般包括普查和抽样调查。普查指为了解某病的患病率或某人群的健康状况,在一定时间内对一定范围内的人群中的每一个成员做调查或检查。一定时间可以是1~2天或1~2周,大规模的普查也可在2~3个月内完成。但普查的时间也不能太长,以免人群中的疾病或健康状况发生变化,从而影响普查的质量。抽样调查指从总体中随机抽取部分观察单位(统计学上称为样本)进行调查。抽样调查是根据抽取样本所调查得出的结果来估计样本所代表总体的某些特征,因此抽样调查必须遵循随机化原则,才能获得较好的代表性样本。抽样调查可以节省人力、物力、时间,且调查范围小,使得调查工作易做得细致。但抽样调查的设计、实施与资料分析较复杂,重复和遗漏不易被发现,故不适用于变异过大的研究对象。常用的随机抽样方法包括单纯随机抽样、系统抽样、分层抽样、整群抽样。
横断面研究操作方便简单、成本低;调查人群中有自然形成的同期对照,具有可比性;同时观察多种因素,反映调查当时个体的暴露和结局状况,有助于病因假设提出,研究结果有较强的推广意义。局限性在于疾病与因素同时存在,难以推断因果关系;只能获得患病率,无发病率资料;潜伏期或缓解期患者易被误诊而产生偏倚;一般只适用于对慢性病的研究;可产生选择性偏倚和信息偏倚。
作为一项描述性研究,横断面研究可以通过收集与药品相关事件的时间、地点和人群方面的基本分布特征等客观资料,经过整理、分析,建立假设性结论,并将假设性结论作为药品临床综合评价研究的起点,为进一步的研究提供线索打下基础。
队列研究是将某一特定人群按是否暴露于某可疑因素或暴露程度分为不同的亚组,追踪观察两组或多组成员结局发生的情况,比较各组之间结局发生率的差异,从而判定这些因素与该结局之间有无因果关联及关联程度的一种观察性研究方法。队列研究的基本原理是在一个特定人群中选择所需的研究对象,根据某个时期是否暴露于某个待研究的危险因素,或其不同的暴露水平,将研究对象分成不同的组,如暴露组和非暴露组、高剂量暴露组和低剂量暴露组等,随访观察一段时间,检查并登记各组人群待研究的预期结局的发生情况,比较各组结局的发生率,从而评价和检验危险因素与结局的关系。其研究设计主要包括研究因素、研究结局、样本量、研究现场和研究人群。根据研究对象进入队列时间及观察的时间不同,队列研究可分为前瞻性队列研究、回顾性队列研究和双向性队列研究。
(1)前瞻性队列研究 前瞻性队列研究是队列研究的基本形式,研究者在结局发生之前定义样本和预测的变量,研究开始根据研究对象的暴露情况进行分组,通过前瞻性观察随访获得各暴露水平人群发生的结局事件,最后比较各组的发生率。该队列研究的前提是选择暴露情况易查明、便于随访又较稳定的人群。
前瞻性队列研究是对发生率的研究,包括疾病发生率与死亡发生率。以死亡作为终点的队列研究比以发病作为终点的多,这是因为死亡的确定比发病的确定容易。研究结果可以用于计算所研究疾病在随访期间的发病率或病死率及各种专率。通过对暴露组与非暴露组的率或不同剂量暴露组之间率的比较,或暴露组的率与全人群的率比较,便可检验:病因假设;可疑的暴露(包括药物)与疾病(死亡)是否存在联系;联系强度如何;是否是因果联系。
前瞻性队列研究的优点是时间顺序增强了病因推断的可信度,直接获得暴露与结局资料,能获得可靠的发生率,不存在回忆偏倚。而缺点则是所需样本量大、花费高、时间长、失访可能性大、可能引入未知变量而影响结局和可行性。
(2)回顾性队列研究 研究者在结局发生后定义样本和收集预测变量,根据研究开始时已掌握的历史资料中的暴露情况进行分组,观察起点设在过去某一时段,调查分析从过去某时点到现在暴露水平人群发生的结局事件,最后比较各组的发生率。
回顾性队列研究的优点是短期内完成资料的收集和分析,时间顺序仍是由因到果。与前瞻性队列研究相比,该队列研究可以节省大量人力、物力和时间,能较快获得结果。其缺点主要是资料积累时未受到研究者的控制,内容未必符合要求;其次是需要足够完整、可靠的过去某段时间有关研究对象的暴露和结局的历史记录或档案材料。
(3)双向性队列研究 双向性队列研究也称混合性队列研究,即在回顾性队列研究的基础上,继续前瞻性观察一段时间,它是将前瞻性队列研究与回顾性队列研究结合起来的一种模式,因此兼有前瞻性队列研究和回顾性队列研究的优点,且相对地在一定程度上弥补了各自的不足。
一般而言,双向性队列研究的资料可靠,一般不存在回忆偏倚;时间轴清晰,不仅可区分潜在混杂和暴露,而且同时可区分暴露和结局;可直接获得暴露组和对照组人群的发病率或病死率;可直接计算各种危险度[如相对危险度(relative risk,RR)、归因危险度(attributable risk,AR)等],反映疾病危险强度的指标,充分且直接分析暴露病因作用,允许研究者关注采取统一治疗措施的多种结局;由因到果,检验假设的能力较强,一般可证实病因联系;有助于了解疾病的自然史;有时还可能获得多种预期以外的疾病结局资料,如观察到剂量-反应关系。双向性队列研究也有局限性,如对样本量要求高,不适合研究发生率低的疾病;需要长期随访,费时费力,组织困难;难以控制暴露以外的因素,易产生混杂偏倚等。
将药物作为暴露因素进行队列研究,开展药品临床综合评价是上市后药品安全性、有效性研究最常用的设计方法。
病例对照研究是一种回顾性的,由结果探索病因的流行病学方法,即在健康阳性事件发生之后去追溯假定的病因因素的方法。该研究是以某人群内一组患有某种健康阳性事件的人(称为病例组)和同一人群内没有这种健康阳性事件的人(称为对照组)作为研究对象,调查他们过去对某个或某些暴露因素的暴露情况和(或)暴露水平的差异,以判断暴露因素与某种健康阳性事件有无关联的一种观察性研究方法,探讨健康阳性事件与危险因素的关联。通过初步分析因果关系,为确证性研究提供线索。健康阳性事件包括发病、死亡、伤残等不良事件(adverse event,AE),也包括临床结局如疗效问题(如客观缓解情况、有效性情况)等良性结局,还包括关于健康行为、态度、意愿等结局。暴露因素是指影响结局、能够改变结局的相关因素,通常就是所谓的病因,更广泛来说是能够预测阳性结局的有关指标,其中当然也包括药物干预。
病例对照研究有多种研究设计类型,如巢式病例对照研究、病例队列研究、病例交叉研究等。病例对照研究的简单关联性方法往往是从差异性角度进行探讨(差异即相关)。病例对照研究的差异性比较是按照病例组/对照组分组,即各个暴露因素在病例组和对照组中的分布差异有无统计学意义。
病例对照研究的优点主要包括:①特别适用于罕见病的研究,有时往往是罕见病病因研究的唯一选择;②相对更省力、省钱、省时间,并且较易组织实施;③可以同时研究多个可疑因素,只需少量研究对象;④可检验明确的危险因素。但其也有局限性,包括不适用于研究人群中暴露比例很低的因素,因为需要很大的样本量;选择研究对象时,如对照组选择不当,易发生偏倚;信息的真实性难以保证,暴露与疾病的时间先后常难以判断。因此,病例对照研究论证因果关系的能力没有队列研究强;获取既往信息时,难以避免回忆偏倚;不能测定暴露组和非暴露组的健康阳性事件发生率,无法直接计算RR和AR等指标。
单纯病例研究是近年来被广泛用于疾病病因研究中评价基因与环境交互作用的一种方法。该研究方法仅通过某一疾病患者群体来评价基因型与环境暴露(如服用药物)的交互作用,但不能评价两者各自的主效应。单纯病例研究应用的前提条件是:在正常人群中基因型与环境暴露各自独立发生;且所研究的疾病为罕见病[此时可用比值比(odds ratio,OR)来估计RR]。
单纯病例研究的基本原理是拟定某一患病人群作为研究对象(无需正常对照组),追溯每一位患者的环境暴露资料,并收集患者的一般情况、混杂变量及其他宏观资料,采集患者的生物学标本,采用分子生物学技术检测基因型。以具有某一基因型的病例作为类病例组,以无该基因型的病例作为类对照组(当基因型别较多时,也可以分成多组资料),调整其他协变量(如年龄、性别、种族、职业等)后,根据基因型与环境暴露情况,采用标准粗分析或非条件Logistic模型等来估计两者在疾病发生中的相乘模型交互作用。
与病例对照研究交互作用结果进行比较时,主要注意以下两个问题:①当单纯病例研究的零假设完全成立,即在正常人群中基因型与环境暴露各自独立发生,且所研究的疾病为罕见病时,单纯病例研究估计交互作用比病例对照研究更为精确,即可信区间更窄;②当疾病频率较高,基因型频率较低,基因主效应作用较大时,单纯病例研究会低估疾病遗传与环境交互作用的大小。因此,单纯病例研究特别适合于罕见病的研究,一般所研究疾病的患病率≤5%,且基因外显率不宜过高。
单纯病例研究的优点在于特别适合于肿瘤及罕见慢性病的研究;在检测基因与环境交互作用时,可信区间更窄;所需样本量少于病例对照研究样本量的一半;因无对照组,故可避免对照选择所引起的偏倚;节省人力、物力、时间,并且较易组织实施。其局限性在于只能估计遗传与环境交互作用(且为相乘作用),无法计算两者各自的主效应;不适用于基因外显率高的疾病的研究;所研究疾病的患病率不宜超过5%;除了可出现病例对照研究的病例选择所引起的常见偏倚外,还存在不同亚人群暴露率和基因型频率不一致所引起的偏倚。
根据真实世界研究的类型,真实世界数据可以根据研究开展的时间分为回顾性数据和前瞻性数据两种类型。回顾性数据通常需要进行数据治理,数据主要来源于已经存在的卫生信息数据、医保支付数据、疾病登记数据、公共卫生监测数据、自然人群队列数据,以及既往开展的临床研究数据等。而前瞻性数据则需要进行数据管理,数据主要来源于将要开展的前瞻性观察性研究,或PCT。由于此类数据类似于RCT的数据收集,即根据研究方案建立数据库并通过电子数据采集系统采集数据,是前瞻性的、有计划的、结构化和标准化的数据。如果某项研究既利用既往的数据,又采集将来的数据,如从即时开始的回顾前瞻性研究,那么回顾性收集的数据需经数据治理,而对前瞻性收集的数据则进行数据管理,这里需要注意的关键问题是既往数据经治理后的数据库应与前瞻性设计的数据库相匹配。前面介绍的真实世界数据的适用性评价主要针对的是回顾性收集的数据,如果是前瞻性收集的真实世界数据,那么无须进行第一阶段的初步适用性评价。针对不同数据来源的研究要素也会有所不同。
回顾性数据,即已经存在的数据,主要包含电子病历(EMR)、电子健康档案(electronic health record,EHR)、医保支付数据、出生死亡登记、公共卫生监测数据以及区域化医疗数据等。这些数据数量非常庞大,但由于数据的采集并非为某特定研究目的支付设计,因此数据分散,异质性高,数据的完整性及准确性会存在一些问题。另外,医保支付数据一般由各级行政部门掌握,可及性较差。
数据可行性评价首先基于待研究的临床问题,确定主要研究变量(如待研究的治疗措施、关键基线信息),主要研究结局包括患者主要人口统计学特征、患病史、并发症、合并症和实验室指标等关键数据是否存在;然后对缺失数据的数量和类型的影响进行全面评估,包括主要研究变量及其他相关研究变量,可以通过抽样或全数据集检查关键变量的数据缺失程度和模式来实现。另外,还需对数据质量进行评估,包括对数据准确性、可靠性、完整性及可溯源性等的评估。
(1)研究人群和入排标准 回顾性队列研究和病例对照研究首先需要确定研究对象,尤其是对照的选择和入排标准的设定。在病例对照研究中,对照应尽量选择内部对照,选择没有发生研究结局的人群,且与病例来自同一人群;对照的选择不受暴露因素的影响,即除了暴露因素外,对照应与病例在其他特征上相似。单纯病例研究设计则不需要对照组。回顾性队列研究设计须根据研究问题清晰定义暴露,如可以是有/无某治疗方案,暴露的程度(如剂量),或者暴露的模式(如顺序),等等。除了暴露因素外,非暴露组的人群应与暴露组尽可能相似。在确定研究人群的标准后,要在数据库中使用一定的算法和代码来识别研究人群,如国际疾病分类(International Classification of Diseases,ICD)编码和药品编码。任何一种编码,由于不同机构医疗水平或者电子病历系统平台不同,对疾病诊断的准确性和完整性也会有所不同。基于数据库开展研究,需要综合各项编码和实验室诊断等联合的识别方式。
(2)暴露因素和研究终点 暴露因素和研究终点是研究中首要考量的关键因素。在数据可行性评价及纳入和排除研究对象的阶段之后,进一步确认暴露状态及研究终点的准确性和代表性,是否有不同数据佐证关键数据的准确性。如果研究基于已有病例数据,那么需特别注意所收集数据的完整性、真实性和可溯源性;如果研究基于患者的自我报告或者研究者的回忆,那么需强调数据的准确性和真实性,以防出现回忆偏倚。
(3)样本量 真实世界研究中样本量的估计是不可缺少的。对于存在假设检验的分析性研究(如病例对照设计、队列设计等),如果样本量不足,就会导致没有足够的把握度去检验提出的问题和假说。基于不同研究类型,需要依据不同的统计分析方法,确定重要参数,定义Ⅰ类错误和把握度,在保证研究具有一定可靠性的条件下,估计并确定最小样本量,确保研究同时具备科学性和经济性。另外,真实世界研究往往采用较宽泛的入排标准,有时需要随访较长时间来研究长期临床结局,充分反映实际的临床实践,因此应在确定最小样本量的基础上,尽可能地扩大样本量,以保证其能够覆盖更广泛的患者群体,并考虑到较长随访时间导致失访的可能性。
(4)统计方法的考量 在确定研究问题后,应尽早制定研究方案和统计分析计划,并纳入达成主要研究目的的统计方法。真实世界研究的统计方法和疗效比较研究(comparative effectiveness research,CER)的分析方法有类似之处。因真实世界研究接近临床实际,研究对象的纳入限制较少、人群的异质性较大、自主选择治疗措施等造成潜在偏倚和混杂,因此统计方法更多关注如何减小与控制偏倚和混杂,常见的方法有匹配、分层分析和多变量分析。在存在较多风险因素或者研究因素的情况下,使用多变量分析将多个因素同时纳入模型,由于共线性等问题,会使得模型无法正常运行。倾向性评分匹配(propensity score matching)或者分层(stratification)则是解决该类问题的常用统计方法。此外,成本-效益模型、贝叶斯模型等也常应用于真实世界的研究设计中。另外,利用已有数据库开展的预测研究也是常见的真实世界研究类型之一,其是对疾病各种结局发生概率及其影响因素的研究方法。传统的统计方法包括Logistic回归和Cox回归以及列线图(nomogram),可用于预测疾病转归或者并发症的发生概率;另外,近年来发展出的基于真实世界大数据的机器学习(machine learning)的方法也是预测研究的常用工具。
(5)缺失数据处理 在真实世界研究中,数据的缺失是一个不可避免的问题。预防策略和统计调整可以降低缺失数据对研究结果的影响,提高结果的可靠性。此外,关注不同研究类型可能出现的数据缺失也可帮助降低缺失数据对研究结果的影响。使用EHR、EMR或者医疗保险等数据源会出现不同的问题。由于研究者往往无法采集额外的数据,因此研究前数据可行性评价是非常重要的环节。对于缺失数据,在能够溯源的情况下,应尽可能补全相应的缺失数据;在无法溯源的情况下,则开展探索性分析,明确缺失值在各个研究因素中的分布情况,判断其分布是否随机,如有偏倚,则后期需考虑开展分层分析。
(1)不同数据库整合的问题 对于不同数据库的整合,一般建议首先对各自数据库中的数据进行质量评估和分层分级,确定需要整合的内容。在整合过程中,矛盾的数据是重中之重,需要重点关注。建立统一的数据标准,将不同数据库的数据结构进行标准化处理。在整合过程中,对无法整合的数据进行处理,同时需要注意由整合造成的系统误差,以及关注整合后的主要研究因素、暴露因素及主要混杂因素的影响。
(2)分子标志物相关研究的注意事项 在开展与分子标志物相关的真实世界研究时,由于采集生物样本的难度以及其测量的特殊性,研究设计需要注意以下问题:基于已有数据库的回顾性队列研究需要考虑患者的基线特征和代表性的问题,如生物样本缺失导致的数据缺失,多重检验导致的“假阳性”结果,数据分析和结果解释中的偏倚,以及研究结果是否具有可重复性等。前瞻性队列研究则需考虑:可能有生物样本但没有详细的患者基本信息的情况;样本量小,且患者人群缺乏代表性;实验检测方法是否经过验证;有分子标志物测量结果,没有或仅有有限临床结局数据(如总生存期、无进展生存期等)的情况;临床数据或者研究终点数据的质量等。
(3)利用数据库开展研究时,知情同意和伦理审批的相关事宜 真实世界研究收集的数据,其中患者的信息有可能成为研究资料,因此患者本身在某种程度上也可能成为“受试者”,所以真实世界研究同样需要符合伦理的要求。真实世界研究需要获得伦理审查委员会的批准。知情同意是保证研究符合伦理要求的一个重要环节,它是一个持续的完整过程,保护受试者的权益。因为真实世界研究多不是预设方案,尤其是回顾性队列研究,收集到的大量信息多属于往年数据,且涉及对大规模病例或生物样本数据的研究,所以获得每一位受试者同意,将其数据用于临床研究有很大的挑战。如果经伦理审查,认为课题研究不超出最小风险,且研究者使用受试者数据不会对受试者造成不利的影响和受试者重要隐私信息泄露,那么一般可考虑免除知情同意。知情同意及伦理审批的相关具体要求需根据国家相关法律法规和研究机构伦理审查委员会的实际要求确定。
前瞻性数据主要包括临床试验的补充数据、PCT数据、注册登记研究、健康调查数据、公共卫生监测数据等,此类数据在收集之前已确定具体的研究目的,需要收集的数据很明确,故数据较规范、标准,完整性、准确性也较好。
在基于前瞻性数据的真实世界研究中,队列研究是一种常见的研究类型。队列研究的展开首先起始于要研究的问题,基于健康结局的病因或者风险因素的假说,通过对研究对象进行追踪,观察不同群组健康结局的发生情况,进而建立暴露因素和健康结局的联系。在临床研究中,往往有计划地招募患者参加,进而随访疾病的复发、好转、痊愈及患者死亡等,研究不同的治疗方法或者某些疾病特点是否和不同疾病结局的相关关系。前瞻性队列研究的样本量和随访时间同样重要,研究的样本量越大,随访的时间越长,观察到的健康结局数量就越多。开展前瞻性队列研究主要考虑以下几个因素。
(1)研究人群的选取 疾病注册或患者注册登记就是系统性地收集某些特点的患者,如某些诊断、治疗(包括药物干预)或疾病症状等,这种登记研究可能使用患者的病历记录和相关信息,而不是所有的可以获得的大量数据。不同的疾病注册登记的样本量或者收集信息的深度和广度可能是不一样的,可能是一个单中心或多中心的研究。考虑到不同的研究目的和执行的可能,这种研究也可以设定一些入排标准。一般来说,严格的入排标准是为了加强研究本身的内部有效性(internal validity),宽泛的入排标准会提高研究结果的广泛代表性或外部可推性(external generalizability)。实际上可能很难做到研究结果的内部有效性和外部可推性两全其美。在设计阶段,如何入选患者,需要临床医生和流行病学专家等合作,共同完成评估资源和操作的可能性,平衡研究的内部有效性和外部可推性。
(2)基线调查的研究内容要尽量丰富、完整 前瞻性队列研究的基线研究本身也是一个横断面研究。在计划和开展研究早期阶段,可以考虑是否要利用横断面信息:一方面,回答具体的科学问题,提示未来继续研究的基础;另一方面,也是对数据的可行性和部分数据质量的检验。在这一分析过程中,应该特别关注对主要暴露因素,甚至暴露水平的测量和评估。例如主要暴露因素效度的研究(validation study),可以为未来的主要研究目的的分析奠定质量基础。另外,在考虑收集主要研究暴露因素和相关基线数据之外,还应该考虑未来研究拓展的潜在可能性,尽可能收集丰富、完整的数据。这样的基线数据会定义患者在研究基线时间点更多的暴露因素和暴露水平,使验证研究假说或研究其他问题成为可能。最后,基线信息的完整采集,对在后续分析阶段控制偏倚和混杂具有重要的作用。
(3)样本量和研究深度的平衡 在有些情况下,前瞻性队列研究限于研究条件,在研究某些科学问题时受限于样本量小,没有足够的把握度来验证假说,此时可鼓励多个群组研究的共同研究(cohort consortium)来扩大样本量,促进科研合作。同时,研究的大样本也可相应地减小抽样误差。在小样本量研究的情况下,尽可能加大数据采集的深度,在创新性方面进行探索。
(4)提高患者的依从性,长期随访患者 前瞻性队列研究可能需要随访数十年,未来研究的健康结局不仅包括电子病历、死亡记录、保险登记等电子化平台提供的信息,而且包括未来可能随访获得的信息。有些研究时间可能超出研究者最初计划的跟踪时间,所以要充分知情,提高患者的依从性,保持良好沟通,避免失访至关重要。
(5)失访及缺失数据的考量 在研究开始时,研究者需要针对缺失数据制订计划,尽可能防止数据缺失,同时为处理重要变量的缺失数据制订计划。失访是前瞻性队列研究的一个重要问题。在需要长期随访的研究中,失访发生的可能性更高,需要给予重视。一般来说,失访率低于5%时,引起的偏倚比较小,但是失访率超过20%时,就必须加以重视和分析。如果失访的原因与暴露因素和研究结局有关联,即使失访率低于20%,也可能引起偏倚。如果失访的原因是完全随机的,与暴露因素以及研究结果没有关联,那么失访率低于60%一般是可以接受的。如果失访在某些明确因素的条件下是随机的,而且失访率低于60%,在分析阶段,通过对这些确定因素进行分层分析,可以控制失访带来的偏倚。此外,即便失访不一定会带来偏倚,仍会影响研究的准确性,或者导致研究的可信区间变宽。因此,在存在失访的情况下,应该进一步分析暴露组和非暴露组失访比例是否有显著性不同,失访是否和一些关键指标存在关联,进而判断失访条件下得到的研究结果是否低估或者高估实际情况。
药品临床综合评价是为药物上市后的再评价提供证据。新药上市往往基于RCT证据获批,经过Ⅰ—Ⅲ期研究的病例数较少、研究时间较短、试验对象入组条件严格、干预标准化等,存在安全性信息有限、疗效结论外推不确定、用药方案未必最优、经济学效益缺乏等不足,需要利用真实世界数据对药物在真实医疗实践中的效果、安全性、使用情况,以及经济学效益等方面进行更全面的评估,并不断根据真实世界证据做出决策调整。所以,RWS和RCT是互补的关系,两者并不对立,都需要科学、合理的研究设计,研究方案以及统计计划。判断RWS和RCT的标准不是试验设计与研究方法,而是研究实施的场景。RWS数据源自医疗卫生机构、家庭和社区等,而非存在诸多严格限制的理想环境,其更“真实”,更能说明实际问题。
下面选取三个采用真实世界研究方法开展药品临床综合评价的实例,有助于大家更好地理解。
2015年由National Patient-Centered Clinical Research Network主导的“阿司匹林心血管获益研究”(Aspirin Dosing:A Patient-centric Trial Assessing Benefits and Long-term Effectiveness,ADAPTABLE)属于随机化的PCT设计,即实效性随机对照试验(pragmatic randomized controlled trial,pRCT),其研究设计和前瞻性队列研究有相似之处,可用于药品临床综合评价中的疗效对比研究。随机化分组是pRCT的关键,用于提高组间可比性,减少选择偏倚。通常选择两种待比较的临床干预措施或方案,采用相对宽泛的入选标准,允许不同研究对象之间存在临床异质性,以保证试验结论能最大限度外推。
推荐将阿司匹林用于已确诊的动脉粥样硬化性心血管疾病(atherosclerotic cardiovascular disease,ASCVD)患者,以降低心血管事件的风险。对于已确诊的ASCVD患者,多少剂量是阿司匹林的适当剂量,可以最大限度降低死亡、心肌梗死和脑卒中的风险,并减少大出血是一个有争议的话题。
该研究采用开放标签、实效性设计方法,将已确诊的ASCVD患者在日常医疗保健基础上,随机分配到每天服用81mg或325mg阿司匹林组。主要疗效指标是来自电子健康档案和保险索赔数据库的全因死亡、非致死性心肌梗死导致的住院以及由脑卒中引起的住院的复合终点。这些指标是通过事件时间分析(time-to-event analysis)评估的主要终点。主要的安全性结局是通过事件发生时间分析的由大出血引起的住院。
该研究对15076例患者进行了随访,中位随访时间为26.2个月[四分位数间距(interquartile range,IQR)19.0~34.9]。在随机分组前,有13537人既往服用阿司匹林,其中有85.3%既往每天服用剂量为81mg。81mg组有590例患者(7.28%)发生死亡、心肌梗死或脑卒中引起的住院,而325mg组发生以上事件有 569 例患者(7.51%)[危险比为 1.02,95%置信区间(confidence interval,CI)0.91~1.14]。81mg组有53例患者因大出血住院(0.63%),325mg组有 44 例患者因大出血住院(0.60%)(危险比为 1.18,95%CI 0.79~1.77)。与81mg组相比,325mg组患者的剂量切换发生率更高(41.6% vs.7.1%),且暴露于指定剂量的中位天数更短[434天(IQR 139~737)vs.650(IQR 415~922)]。
在这项纳入确诊心血管疾病患者的pRCT中,有大量患者转换到81mg阿司匹林组,并且每天服用81mg阿司匹林和325mg阿司匹林的患者在心血管事件或大出血方面没有显著差异。
该研究是一项上市后药品安全性再评价研究,是采用我国3家医院HIS系统中的回顾性数据进行的真实世界研究,对我国口服非甾体抗炎药(nonsteroidal anti-inflammatory drug,NSAID)处方的规范性和不同类型NSAID的安全性进行了评价。
NSAID在临床上常用,是门诊处方量最大的药物之一。各种NSAID治疗大多数疼痛和炎症性疾病的镇痛效果是相似的。但在使用NSAID的患者中,约1/3会发生持续的药物相关不良反应,10%的患者需停药。此外,NSAID还会增加患者的住院和死亡风险。因而,近年来,NSAID药物的安全性问题受到人们的高度重视。开具NSAID处方时,预见并防止不良反应发生成为主要的安全性目标。胃肠道和心血管副作用是NSAID最受关注的安全性问题。NSAID可分为非选择性环氧合酶(cyclooxygenase,COX)抑制剂(传统NSAID)和选择性COX-2抑制剂。传统NSAID更易导致胃肠道反应,而选择性COX-2抑制剂能降低胃肠道反应风险,但长期使用可能提高心血管不良反应风险。在该研究之前,以上结论并未在我国人群中有确切的研究结论。
该研究从参与研究的医院HIS系统中获取了2012年7月1日—2019年8月31日50732名服用口服NSAID的患者的数据。对这些患者的人口学特征(年龄、性别、婚姻、民族、就诊途径和医保情况)、NSAID的处方模式(处方NSAID药名、处方时间、处方次数、处方科室)、病史(现病史、既往史),合并用药和药物相关的安全性进行了评估。
研究结果显示,口服NSAID处方涵盖所有年龄段的患者,其中81.88%的患者只开过一次NSAID,91.64%的患者只开过一种NSAID。不同NSAID联合用药2360人次。骨科最常用的是选择性COX-2抑制剂,而急诊最常用的是传统NSAID。使用选择性COX-2抑制剂治疗的患者胃肠道并发症、心血管事件和新发高血压的发生率低于传统NSAID和NSAID联合治疗的患者( P <0.05)。与选择性COX-2抑制剂相比,使用我国原研的艾瑞昔布治疗的患者新发高血压的发生率低于使用其他类型的选择性COX-2抑制剂治疗的患者( P =0.0102),该药各方面的安全性均具有一定优势。对于高危患者(即有相关疾病的患者,如胃肠道并发症、心血管事件),口服NSAID的处方模式没有标准化。
美罗培南对革兰阳性菌和不动杆菌的抗菌活性略弱于亚胺培南,但对铜绿假单胞菌和肠杆菌科细菌的抗菌活性更强,且体外稳定性优于亚胺培南,临床上特别在危重患者中得到广泛应用。而优化美罗培南给药方案、延缓碳青霉烯类抗生素耐药进展,还需要基于患者的个体化评估和医疗团队的进一步配合。
该研究通过医院HIS系统抽取2017—2019年所有病区应用美罗培南的住院病例,剔除仅单次用药患者1例,合并患者在不同病区用药的情况,共计43例纳入分析。利用HIS 1.0系统收集患者的基本信息,包括病案号、住院次数、性别、年龄、住院时间、科室、相关感染诊断、美罗培南用法用量、联合其他抗菌药物及联合用药问题、用药疗程、应用美罗培南前后的体温、外周血白细胞、咳痰情况、气体交换指数、X线胸片浸润影、气管吸取物或痰培养等病原学送检和培养、PCT、CRP、ESR结果。通过用药频度(DDDs)、药物利用指数(DUI)、肺部感染评分(CPIS),同时结合处方专项点评指南对美罗培南进行了药品临床综合评价。最终结果:平均DUI为1.92,其中死亡组DUI为2.11;死亡组CPIS高于生存组,治疗好转组和无好转或恶化组的CPIS差异不大,但好转组用药后的CPIS有所下降。其他不适宜问题包括药物配伍禁忌、相互作用和联用药物的不良反应风险。研究得出结论:药物临床综合评价应多维度、分层次,以降低患者用药风险为目的,DUI和CPIS可作为恰当选择和适时停用美罗培南的重要依据。