临床实践指南是针对患者的特定临床问题,基于系统评价形成的证据,并对各种备选干预方式进行全面的利弊平衡分析后提出的最优指导意见。系统评价是针对具体问题,采用科学规范的方法全面收集、严格筛选、对纳入证据质量进行评价和结局指标合并得出综合可靠结果的研究方法。系统评价是指南制订的方法学基础。
系统评价是运用限制偏倚的策略,严格评价和综合针对某一具体问题的所有相关研究;但并非所有系统评价都包含meta分析。
系统评价的主要作用有:①增加检验效能,提高精确度:整合多个同类研究结果,增大了样本量,可提高检验效能和估计效应值的精确度。②解决分歧:通过meta分析可得到研究效应的平均水平,对有争议甚至相互矛盾的研究结果得出一个明确的结论。③引出新见解:探讨单个研究中未阐明的某些问题,发现既往研究的不足之处,提出新的研究假说和研究方向。④为指南制订和临床决策提供良好依据:系统评价与meta分析属于系统化评价的证据,能够为指南制订提供依据;结论简单明了,方便临床医生应用。
指南制订者需要检索获取与评价已有证据,并评估是否需要制作新的系统评价。系统评价检索策略应在计划书中呈现,并由指南指导小组的方法学专家(文献检索专家)进行审核,以确保所有必要的数据库和检索词都已包含在内。系统评价的检索由指南制订小组完成。
Cochrane协作网是一个制作与传播系统评价的全球协作网,而Cochrane系统评价代表着全球最高质量的系统评价。指南制订小组可首先检索Cochrane图书馆查找、获取与本指南主题相关的系统评价,也需要运用高效的检索策略补充检索多个综合数据库,如PubMed、Embase、Web of Science及Scopus等。系统评价的查找与获取内容请详见本章第四节“证据的检索与评价”。
指南的推荐意见需要基于当前可得的最佳证据,并不是每次都要制订新的系统评价。日本医疗信息网络服务(Minds)手册通过流程图清晰地说明了是否需要及在什么条件下重新制作系统评价(图2-5-1)。
若目前存在相关主题的系统评价,经AMSTAR 2(a measure tool to assess systematic reviews 2)质量评价后该系统评价符合指南制订小组对方法学的要求,与临床问题的PICO匹配,且该系统评价纳入了最近文献,则可以直接使用。若不满足以下任意条件中的一种,则需要重新制作系统评价:①不存在与主题相关的系统评价;②经AMSTAR 2质量评价发现该系统评价不能满足指南制订小组对方法学的基本要求;③现有的系统评价与指南关注的临床PICO问题不匹配;④文献检索策略不适合该主题。
世界卫生组织(WHO)手册中也着重提到重新制作系统评价的要求,如①无相关性系统评价;②现有系统评价制订时间大于2年;③现有系统评价的PICO问题与预制订的系统评价的PICO问题存在差异;④系统评价质量低。
综上所述,系统评价的检索一旦完成,指南制订小组在决策是否需要重新制作新的系统评价之前,需评价这些系统评价的相关性、时效性和质量。相关性指原有的系统评价与拟制订的系统评价的主题是否相关及与临床问题的PICO是否匹配。如现有的系统评价纳入的原始研究样本均来自非本指南的目标人群,则不满足PICO原则。时效性根据PICO问题的不同来确定,一般现有系统评价制订时间若小于2年,则不需要重新制订新的系统评价。系统评价的发表时间间隔在2年以上,需要考虑是否有新的相关原始研究发表,如有新的原始研究发表,且会改变原系统评价的结果,则必须对原系统评价进行更新。对于Cochrane系统评价,可联系相关评价小组确定是否计划更新。如存在多篇系统评价,则推荐使用最新的高质量系统评价。对于新发疾病或暴发疾病,指南制订小组需衡量经费、人员、物力和时间,进行综合考虑是否制作系统评价。方法学质量评价是审查证据的关键阶段,针对系统评价或meta分析,可采用系统评价方法学质量评价工具——AMSTAR 2。AMSTAR 2的适应范围包括基于随机对照试验(RCT)或非随机干预研究(NRSI),或两者都有的系统评价,但不包括诊断性试验系统评价、网状meta分析、单个病例数据的meta分析、概况性评价和现实主义系统评价。AMSTAR 2是在第一版的基础上,综合多方的意见,经过严格的修订程序而形成的。与第1版相比,AMSTAR 2细化了各条目的评价标准,完善了评价选项,并提供了系统评价质量等级的评价标准。此外,AMSTAR 2还纳入了评价NRSI的内容,丰富了评价工具的适用范围。最终决定系统评价是否为高质量,要基于对所有条目的综合判断。
图2-5-1 Minds使用或制作系统评价的抉择流程
注:*AMSTAR已在2017年更新为AMSTAR 2;SR.系统综述。
如上所述,指南制订小组需要检索获取与评价已有证据,并评估是否需要和如何制作新的系统评价。当指南制订小组自行制作系统评价时,则需要严格按照Cochrane系统评价指导手册进行。根据Cochrane系统评价指导手册中对系统评价制作方法的描述,可将系统评价的制作步骤概括为8个步骤(图2-5-2)。
图2-5-2 系统评价制作步骤
系统评价的制作步骤:①提出PICO问题:可根据指南关注的PICO问题进行细化,或者直接运用指南的PICO问题。如指南所关注的问题比较宽泛,则在制作系统评价时需要对指南PICO问题进行细化。②系统评价制作者根据PICO和研究设计制订严格的文献纳入排除标准。③系统评价需要全面检索与PICO相关的研究,因此除了常规数据库(如PubMed、Embase等)外,还需要根据PICO问题的特色,检索相关专业领域的数据库(如AMED、CINAHL、PsycINFO等)及手工检索相关专业期刊和灰色文献。PubMed和Embase中的检索可参考加拿大麦克马斯特大学制订的检索策略。④筛选文献的过程至少需要2名研究人员独立进行,并详细记录排除研究及排除原因。⑤数据提取和纳入研究的质量评价的过程也需要至少2名研究人员独立进行。⑥数据的分析和合并过程需要列表描述每个研究的情况,审查森林图,探讨异质性的可能来源,考虑整体研究的meta分析及各亚组的meta分析的结果,进行敏感性分析并审查森林图。⑦解释结果的过程需要分析包括发表偏倚等相关的各种偏倚,如需要则运用GRADE方法对证据质量进行分级。⑧完成以上所有工作后,系统评价制作者需要撰写全文。
GRADE是一种对系统评价和临床指南的证据进行分级以及对指南推荐强度进行评估的评价系统,其覆盖内容包括疾病的诊断、筛查、预防和治疗,也可用于公共卫生和健康相关问题的评价。GRADE不仅仅是一个评价系统,也提供了一个透明的、结构化的临床证据汇总方式和指南的推荐方式,特别是在指南制订过程中,它对如何提出临床问题、如何选择理想的研究终点并评估其重要性、如何评估证据等级、如何考虑患者的意愿等方面做了详细阐述。GRADE标准的详细内容请详见本书第三章。
为保证系统评价报告的科学性、透明性并满足用户对系统评价报告的需求,2009年由国际著名专家组成的系统评价和meta分析优先报告的条目(preferred reporting items for systematic reviews and meta-analyses,PRISMA)小组发表了《系统评价与meta分析优先报告的条目:PRISMA声明》。PRISMA已经由2009年版更新为2020年版,PRISMA2020流程图见图2-5-3。PRISMA声明旨在帮助作者改善系统评价/meta分析的报告质量,其适用于各类型系统评价,特别是干预性研究的系统评价;此外,PRISMA还可用于评价系统评价的报告质量。因此,建议在指南的制订过程中,系统评价制作者也应按照PRISMA声明对系统评价进行透明、规范化报告。
图2-5-3 PRISMA系统评价声明流程
在迅速发展的循证卫生保健大背景下,即使是最发达的医疗卫生系统,仍然面临诸多挑战,如:如何为患者提供高质量、安全有效的卫生服务,如何提高卫生服务的价值并减少资源浪费等。因此,不管是政策制订者,还是临床专业人员甚至是患者都需要及时获取可信的、不断更新的证据,以促进患者在诊断、治疗、护理、随访等过程中能够知情选择、共同决策及提高卫生服务的效率和效果。系统评价作为循证医学中较高等级证据,其制作方法相对成熟,但更新机制尚不完善。Julian H Elliott等在2014年提出了动态系统评价。动态系统评价通过周期性地获取临床证据,动态更新临床证据,保证了系统评价结果的准确性、时效性和临床实用性。因此,在研究更新较快、新的证据不断出现、新的结果可能会改变现有结论的领域,动态系统评价显得尤为重要。动态系统评价提出后马上得到业界响应,Cochrane协作网在2016年成立并启动Cochrane动态证据网络(Cochrane living Evidence Network),致力于动态系统评价的规范制订及成果发布。与传统的系统评价相比,动态系统评价在出版方式、工作流程、作者团队管理和统计方法等方面有较大的区别(表2-5-1)。其中统计方法部分,由于通常情况下,重复meta分析会增加结果的Ⅰ型错误(假阳性错误)的风险,而在样本量不足的情况下也存在Ⅱ型错误(假阴性错误)风险。为减少该风险,Simmonds等学者建议以下几种统计学方法来制作动态系统评价:①序贯meta分析,通过计算累积Z值(加权效应量的累积和)和V值(权重倒数和)之比,并与预设的界值区间比较以标示效应方向和判断终止meta分析的时机;②重对数律法,通过调整统计量Z来维持α值(α分割界值法)在持续更新过程中不越界(通常是5%);③Shuster法,用Pocock分割α值,并用修正t统计代替Z值。
表2-5-1 动态系统评价与传统系统评价的区别
动态系统评价在获取最新结果上无疑具有优势,但动态系统评价频繁更新也会带来额外的工作量,因此建议以下几种情况优先选用动态系统评价:①将系统评价作为重要决策依据,此时系统评价结果对决策过程非常重要,且有必要持续更新获得最新证据;②现有证据评价等级为低或极低,动态系统评价对于此种不能提供确定性证据的情况可能有所帮助,纳入的新信息可能改变系统评价的结果;③动态系统评价尤其适合研究进展快速迭代、新证据层出不穷的领域。值得注意的是,选择动态系统评价方法后,并不代表需要一直使用,当上述条件不再具备,则可以考虑停止这种更新形式。
动态系统评价作为一种强调证据更新的系统评价,其制作过程和普通系统评价类似,包含准备、更新、发布等阶段,但在具体实施中也有其特点(图2-5-4)。
准备阶段:①制订方案,动态系统评价方案在常规系统评价方案基础上,重点描述每个数据源的检索频率,将新证据整合到系统评价中的原则和时机,以及可能采用的特殊meta分析方法等;②动态系统评价可以是制作一篇完整的系统评价,也可以是更新现有系统评价。
更新阶段:①定期检索,可充分利用数据库的定期主题推送功能,对于无此功能的数据源,应通过人工进行定期检索。不同数据源可根据其自身数据更新情况,采用不同的检索频率,例如每月检索一次主要文献库,每季度检索一次次要数据库。②评估新证据,定期检索的结果分为有新证据产生和没有新证据产生两种情况。如果没有新证据产生,那么只需要向最终用户说明最后一次检索时间和结果。如果有新证据产生,但是新证据尚不明确或者对现有系统评价影响不大,那么建议先不用纳入现有结果,而是向最终用户说明最后一次检索时间、新证据的详细信息及延迟纳入的理由;如果产生的新证据经过分析确定新证据会影响系统评价结果,那么需要将其及时纳入系统评价,并向最终用户展示最后一次检索时间、新证据的详细信息以及纳入理由。③实施更新,一旦确定有新证据需纳入,后续更新流程即可启动,包括偏倚风险评估、数据提取与合成,以及更新后的结果及解读等。更新过程的状态和信息应向用户披露,并及时发布更新结果。
图2-5-4 动态系统评价的实施过程
到目前为止,动态系统评价主要集中在基于两种治疗方式的成对直接比较的证据范围内。为了克服动态系统评价的这种局限性,Créquit Perrine提出了一种范式转变:从动态系统评价转向动态网状meta分析,也就是说,在一项分析中综合直接和间接证据同时比较干预措施,通过考虑针对特定条件下所有可用的干预措施,并在可行时尽快纳入新的证据。
动态网状meta分析由两部分组成:一是执行初始网状meta分析,二是随时间推移,通过六个步骤的迭代来持续维护网状meta分析。六个步骤分别是:①对治疗措施和试验进行检索;②“众包(crowd sourcing)”(一种在线协作模式,即利用网络社区聚集的大量人力资源,将分拆后的系统评价更新任务有组织地发布,由众多作者同步快速完成)筛选;③数据提取;④评估偏倚风险;⑤更新试验网络和合成;⑥传播结果。为了涵盖所有治疗措施的全部证据(即既有试验网络中已有治疗措施的新证据,也有新治疗措施的新证据),需要实现一种自适应检索策略,该策略将随着时间的推移,包含与新治疗方法相关的其他关键词。这种自适应检索策略意味着,干预措施的文献检索格式需要与经典系统评价略有不同,应更具包容性(除了药物名称以外,还应包括治疗类别),并且会随着时间的推移而发展(包括评估的新药物)。应该建立一个动态的证据合成平台,以找出最相关的研究问题,并随着时间的推移维持动态网状meta分析。
Isabelle Boutron团队每周在WHO国际临床试验注册平台生成的COVID-19数据库中筛选识别合格的RCT。采用动态映射图(mapping)对所有已注册的RCT进行描述。检索和提取的数据可以通过交互式数据可视化来呈现,以确定研究间的优先排序,并帮助改进未来的RCT。该团队也正在进行一项根据利益相关者不断变化需求的动态系统评价。为了改进研究计划,该团队监测与结局相关的试验质量、报告的完整性(即遵从consolidated standards of reporting trials,CONSORT规范)、偏倚风险和数据共享等。
在医疗保健中,传统系统评价可为决策提供依据。但是,传统的系统评价受到方法学的严格要求,通常需要一到两年的时间才能完成,这严重阻碍了指南的制订与实施及最佳证据向临床转化的进程。例如,对于新型冠状病毒引发全球卫生危机,决策者迫切需要快速合成证据。快速系统评价成为一种有效的工具,可以更快地向决策者提供证据。快速系统评价简化了传统的系统评价方法,并加快了系统评价的流程。许多国家和国际卫生机构也使用快速系统评价在紧急的公共卫生事件中为指导方针提供建议。虽然已发布的有关快速系统评价的描述可以追溯到近十年,但尚无统一标准或共识定义。Chantelle Garritty等人于2020年10月在 Journal of Clinical Epidemiology ( JCE )发表了题为“Cochrane快速系统评价方法组对制作快速系统评价提供证据指南”的文章,旨在支持Cochrane及其他机构进行快速系统评价,以响应以决策(包括高优先度的紧急健康问题)为目的的及时证据综合的要求。
Cochrane快速系统评价方法小组通过所纳入的216篇快速系统评价和90篇方法学论文对快速系统评价进行定义,并向来自20个Cochrane成员单位的119名代表发出调查,就已确定的快速系统评价方法征求意见,最终基于63名答复者的调查结果(53%的答复率),提出了26项快速系统评价方法建议(表2-5-2)。
目前几乎所有的指南更新都需要人工检索文献及重新进行证据的合成与推荐意见的撰写,进而进入传统的指南发布流程,因为此过程耗时较长,更新指南发布时,很有可能随着新的文献又陆续发表,更新的指南又已经落后于最新研究进展,故快速系统评价已越来越受到全球的推崇。2017年首届全球循证高峰论坛(Global Evidence Summit,GES)会议提出为了促进证据的转化和指南实施,需强调“数据化和可信的证据生态系统(digital and trustworthy evidence ecosystem)”的概念(图2-5-5)。该系统以促进卫生系统有效运作为宗旨,认为一个良好的证据生态系统要求最佳的证据必须在原始研究的研究者、证据合成的研究者、证据传播和证据应用的专业实践者之间进行无缝转化,以实现可持续循环。这样一个动态化的过程被称为证据生态系统,它倡导促进证据的持续及快速更新。
表2-5-2 Cochrane快速系统评价方法建议
续表
注: * 为了被视为筛选目标的系统评价,研究需要明确报告纳入/排除标准;检索至少两个数据库;进行偏倚风险评估;并提供所纳入研究的清单。R,recommendation,快速系统评价方法建议。
图2-5-5 数字化可信的证据生态系统
循证医学自20世纪90年代提出以来,逐渐发展成熟,其中系统评价为指南制订等评价决策活动提供了最优的证据支持。随着临床研究大量涌现,以及临床决策对于时效性的更高要求,传统的系统方法由于人力时间消耗巨大、制作更新周期冗长而受到重新审视,人们亟须一种新的优化的更新策略以快速及时反映最新成果。快速系统评价与动态系统评价的出现为及时决策提供了方法学支持,相信在不久的将来,基于快速系统评价与动态系统评价的指南将作为指南制订及辅助决策的有力工具。
Per Vandvik,Linn Brandt和Gordon Guyatt于2009年开始策划MAGIC(making GRADE the irresistible choice)项目,并于2013年在挪威成立了MAGIC国际组织。MAGIC通过指南推荐快速制订方法体系快速生产可信的推荐意见,以确保临床实践指南制订得科学和高效;通过推荐意见的发布系统(即MAGIC app)快速传播和动态更新指南推荐意见;通过指南推荐意见的制订发现现有证据不足之处,反向促进相关高质量原始研究证据的生产,反哺和促进指南的制订;最终形成证据从生产、转化到使用的完整闭环——数字化和可信的证据生态系统。
证据生态链中数据流始于患者也终于患者。患者数据形成原始研究,原始研究形成系统评价,系统评价经指南制订团队进一步分析讨论形成指南推荐,指南发布后,临床医生又会遵循指南推荐,将治疗方案用到患者身上,随后进行后效评价。系统评价作为其中间环节,承上启下,其重要性不言而喻。系统评价价值体现在原始研究制作前灯塔作用,以及原始研究制作完成后的桥梁作用。系统评价把单个研究数据,整合成证据体,为循证指南的推荐提供基石。
证据产生后,因为单篇原始研究常常存在样本量不足、研究质量参差不齐的问题,所以原始研究产生的证据若未经过严谨的评价,证据的可信度并不高,将一些质量差甚至错误的研究结论作为证据应用到实践,可能会误导临床决策。因此,证据在生态系统中循环的第2个环节是对证据进行提炼,形成现有的最佳证据。即证据产生后,应当对原始研究进行系统检索、评价、遴选,通过系统评价对证据进行整合,形成针对某一临床问题整合后的最佳证据。证据在生态系统中循环的第3个环节是形成基于证据的推荐建议。由于系统评价仅针对某一具体临床问题而进行的证据整合,且存在篇幅过长、可读性不强、临床适用性差等问题,所以,综合考虑基于系统评价的证据质量并权衡不同干预措施的利弊、患者的意愿与偏好及成本的高低,提供最优推荐意见的临床实践指南成为证据向临床实践者传播的最佳形式。
从原始研究的发表,到被纳入系统评价大概需要很长的时间,而将整合后的证据应用于临床实践需要的时间则更长。因此,借助网络技术,构建促进证据传播和应用的平台及工具是推动证据在生态系统良性循环的有效策略。
[1]ELIOTT J H,SYNNOT A,TURNER T,et al.Living systematic review:1.Introduction the why,what,when,and how[J].Journal of clinical epidemiology,2017,91:23-30.
[2]BOUTRON I,CHAIMANI A,MEERPOHL J J,et al.The COVID-NMA Project:Building an Evidence Ecosystem for the COVID-19 Pandemic[J].Annals of internal medicine,2020,173(12):1015-1017.
[3]ELLIOTT J H,TURNER T,CLAVSI O,et al.Living systematic reviews:an emerging opportunity to narrow the evidence-practice gap[J].PloS medicine,2014,11(2):e1001603.
[4]RAVAUD P,CRÉQUIT P,WILLIAMS H C,et al.Future of evidence ecosystem series:3.From an evidence synthesis ecosystem to an evidence ecosystem[J].Journal of clinical epidemiology,2020,123:153-161.
[5]VANDVIK P O,BRANDT L.Future of Evidence Ecosystem Series:Evidence ecosystems and learning health systems:why bother?[J].Journal of clinical epidemiology,2020,123:166-170.
[6]GARRITTY C,GARTLEHNER G,NUSSBAUMER-STREIT B,et al.Cochrane Rapid Reviews Methods Group offers evidence-informed guidance to conduct rapid reviews[J].Journal of clinical epidemiology,2020,130:13-22.
[7]CRÉQUIT P,TRINQUART L,YAVCHITZ A,et al.Wasted research when systematic reviews fail to provide a complete and up-to-date evidence synthesis:the example of lung cancer[J].BMC Medicine,2016,14:8.
[8]李慧,陈耀龙,王琪,等.中医(中西医结合)临床实践指南制修订方法——证据获取与系统评价[J].中华中医药杂志,2016,31(6):2206-2209.
[9]BOUTORN I,CRÉQUIT P,WILLIAMS H,et al.Future of evidence ecosystem series:1.Introduction Evidence synthesis ecosystem needs dramatic change [J].Journal of clinical epidemiology,2020,123:135-142.
[10]CRÉQUIT P,BOUTRON I,MEERPOHL J,et al.Future of evidence ecosystem series:2.current opportunities and need for better tools and methods[J].Journal of clinical epidemiology,2020,123:143-152.