科学的证据与推荐意见分级对指南的制订、实施具有重要意义。证据与推荐意见分级是指根据证据的内、外部真实性等对证据进行评价分级,并根据评价结果形成不同级别的推荐意见。科学合理的证据分级和推荐意见可以为决策者快速作出决策提供有效参考。因此,采用透明科学且实用性强的证据质量和推荐意见标准是科学制订指南的必然要求。
证据分类的概念最早是在20世纪60年代由美国社会学家Campbell和Stanley提出,并被用来评价教育领域部分原始研究的设计。1979年,加拿大定期体检特别工作组(Canadian Task Force on the Periodic Health Examination,CTFPHE)首次对医学领域的研究证据进行质量分级及给出推荐意见。此后,证据与推荐意见分级体系进入不断探索的快速发展阶段(表2-6-1)。
表2-6-1 证据与推荐意见分级的演进
注:CTFPHE,Canadaian Task Force on the Periodic Health Examination,加拿大定期体检特别工作组;AHCPR,Agency for Health Care Policy and Research,美国卫生保健政策研究所,现更名为Agency for Healthcare Research and Quality;NEEBGDP,North of England Evidence Based Guidelins Development Project,英格兰北部循证指南制订项目;USPSFT,U.S.Preventive Services Task Force,美国预防服务工作组;NHMRC,National Health and Medical Research Council,澳大利亚国家卫生与医学研究委员会;SIGN,Scottish Intercollegiate Guidelines Network,苏格兰院际指南网络;OCEBM,Centre for Evidence-Based Medicine at the university of Oxford,牛津大学循证医学中心;GRADE,the Grading of Recommendations Assessment,Development,and Evaluation,推荐分级的评价、制订与评估。
全世界多数组织和机构都对证据质量和推荐意见分级制订了规范的分级标准,但这些标准各不相同。我们对这些分级标准进行总结,其发展有以下几个特点:
1.证据分级标准经历了单纯重视研究设计类型、研究设计类型与证据质量兼顾、证据体三个阶段。早期的分级标准以研究设计类型为依据,将RCT视为最高级别证据,如CTFPHE等。此后David Sackett在此基础上进行完善,提出质量标准,认为RCT大样本优于小样本,USPSFT则进一步结合研究质量进行证据分级,而GRADE更是彻底打破以研究设计类型为依据对证据定级的准则,提出综合考虑研究设计类型、方法学质量、结果一致性、精确性、直接性等因素进行证据分级。
2.推荐强度不再与证据级别相对应。早期的CTFPHE、David Sackett、AHCPR等在推荐强度和证据级别之间具有一一对应的关系。高质量的证据给予高级别的推荐,而后美国耳鼻咽喉头颈外科学会(AAO-HNSF)、欧洲临床营养与代谢学会(EPSEN)、澳大利亚Joanna Briggs循证卫生保健中心(Joanna Briggs Institute,JBI)、GRADE等组织采用的标准在考虑证据的质量时,结合了证据的适用性、患者的意愿和偏好等因素来给出推荐意见,在此分析理念下,可能会出现高级别证据弱推荐,也可能低级别证据强推荐。
3.最高级别证据由单个RCT至多个RCT的meta分析至多个RCT的meta分析和高质量单个RCT并重转变。如CTFPHE、David Sackett将单个RCT视为最高级别证据,AHCPR、NHMRC认为多个RCT的meta分析为最高级别证据,而NEEBGDP、SIGN认为高质量单个RCT和多个RCT的meta分析同样可视为最高级别证据。
4.证据来源多样。CTFPHE等许多标准将专家意见纳入了证据范围。纽约州立大学下州医学中心提出的证据金字塔还首次将动物研究和体外研究作为级别最低的证据。
5.从临床问题的单一方面扩展到多个方面。大多证据分级体系重点关注干预研究证据的分级,而2001年OCEBM标准则涉及病因、诊断、预防、治疗、危害、预后和经济学分析等七个方面,其中2011年发布的标准包括诊断、预后、干预、危害四个方面。
6.采纳的证据分级体系从分散趋向统一。各种组织或机构的自定标准正逐渐转向采用统一的、更科学的标准。尽管标准很多,但大多数手册都推荐GRADE或根据GRADE改编的标准。
在GRADE系统推出之前,各循证卫生保健组织的证据等级系统往往基于“唯设计论”,认为RCT设计的研究质量必然高于观察性研究,对研究设计的多元性以及系统评价中纳入研究的设计质量、各研究间的不一致性、不精确性、间接性、发表偏倚等带来的问题未能进行综合判定。因此,传统的证据等级系统近年来受到研究方法论专家和临床决策者的批评。GRADE是GRADE工作组于2004年发布的证据质量和推荐强度的分级方法。GRADE证据系统的推出,突破了以往单纯按照研究设计划分证据质量等级的局限性,综合考虑系统评价纳入研究的偏倚风险、发表偏倚、不一致性、间接性、不精确性(随机误差)、效应量、剂量-反应关系以及混杂因素等,将系统评价的效应指标作为“证据体(body of evidence)”进行质量分级。
GRADE分级方法最初将随机对照试验视为高质量证据,其质量可受五个因素影响而降低,而观察性研究则被视为低质量证据,其质量可受三个因素影响而升高,证据质量最终归类为极低、低、中、高四个级别(表2-6-2)。如果RCT中存在可能降低证据质量的因素,则降为中等质量;如观察性研究中有增加证据质量的因素,则上升为中等质量。GRADE将“证据质量”定义为在多大程度上确信效应估计值支持作出推荐,以及将“推荐强度”定义为在多大程度上确信干预效果利大于弊或者弊大于利。在综合考虑证据质量和其他影响因素(例如利弊平衡、患者价值观和意愿以及成本)的基础上,由指南制订小组通过讨论和共识后,依据GRADE系统将推荐意见分为强、弱两类(表2-6-3)。如果明确表明干预措施的利大于弊或者弊大于利,则将其视为强推荐或强不推荐。如果不确定其利弊,或者无论证据质量高低均表明利弊相当时,则将其视为弱不推荐或弱推荐。
表2-6-2 GRADE证据质量分级
表2-6-3 GRADE推荐强度
2001年,苏格兰院际指南网络(The Scottish Intercollegiate Guidelines Network,SIGN)发布了详细的证据分级标准和相应的推荐强度。SIGN将证据等级和推荐强度均分为4个等级,其中RCT、meta分析和系统评价共同为最高等级证据,并根据其质量将其分为三个亚级,其中偏倚风险非常小的RCT、高质量的meta分析和基于RCT系统评价共同为最高等级证据,为1++。专家意见被列为最低等级。尽管SIGN采用了自己的证据等级分级方法,但它在2013年调整了推荐意见的分级方法,停止使用原来的4级分级方法,改用GRADE方法。经由决策制定环节最终生成推荐,推荐被评级为“强”或“视条件推荐”,证据描述核心内容与推荐表见表2-6-4和表2-6-5。
表2-6-4 SIGN证据描述核心内容
表2-6-5 SIGN推荐强度分级
英国国家卫生与临床优化研究所(NICE)指南制订手册2014版推荐使用GRADE分级方法。NICE不推荐通过高、中、低、极低、强、弱等标签来给证据质量及推荐强度分级,而建议通过对推荐意见进行描述来体现证据及推荐级别,如可用“建议”“提供”等来反映强推荐,用“考虑”来反映弱推荐。
1998年,英国Cochrane中心联合循证医学和临床流行病学领域权威专家,根据不同研究类型制定了详细的质量分级标准,并于2001年正式发表在英国牛津循证医学中心(Center for Evidence-Based Medicine at the university of Oxford,OCEBM)的网络上。此标准首次涉及了病因、诊断、预防、治疗、危害、预后、经济学分析7个方面,任何临床研究都能从研究设计和研究终点这2个方面来划分等级。该标准的一大特色之处在于其首次纳入了“全或无”证据,即无对照的研究证据,“全”是指在采用干预措施之前,所有的患者均会发生某一结局事件,而应用该干预措施之后,有部分患者不会发生该结局事件;“无”是指在采用干预措施之前,部分患者会发生某一结局事件,而应用干预措施之后,所有的患者都未发生该结局事件。这是非RCT类证据第一次被列为最高级别证据。2009年,由Jeremy Howick领导的国际小组对OCEBM证据体系进行了简化及修改,2011年正式完成并发布,证据分级体系等级由原来的5级10等减少为5级,不再对前三级进行细化,并且将系统综述证据等级提升。2011牛津循证医学中心发布新版证据分级体系,此体系包括诊断、预后、干预、危害四个方面。经过改动后,该体系能让临床医生和患者快速回答临床问题,且可依照使用者遇到临床问题的流程排序。同时OCEBM体系增加了对筛查研究的评价,删除了经济学和决策分析研究证据评价,在介绍部分也明确说明,此分级不涉及推荐意见的分级方法。另外,此分级参考了GRADE的理念,在证据分级的基础上再进行进一步评价,如考虑到证据可能存在的精确性、间接性等问题(表2-6-6)。
表2-6-6 2011年牛津证据分级标准
注: * 如果存在研究质量不佳,不精确性,不直接性(研究中的PICO与所提的临床问题不匹配),绝对效应量(the absolute effect)太小的问题,证据等级可能降低。如果出现大的或极大的效应量则证据需要升级。
** 一般来说,系统评价证据级别优于单个原始研究。
2014年,澳大利亚Joanna Briggs循证卫生保健中心(Joanna Briggs Institute,JBI)根据GRADE系统以及原有的JBI循证卫生保健模式制订了JBI证据预分级及证据推荐级别系统。JBI基于多元主义的哲学观,认为医疗卫生保健领域证据的来源是多元化的,干预性研究、观察性研究、质性研究、经济学评价、诊断性试验、预后研究、专业共识及专家意见均可提供有深刻价值和意义的证据。因此,在采纳GRADE证据分级系统的同时,进一步考虑证据的多元性,提出在对证据体进行质量分级之前,可对证据进行预分级(pre-ranking)。预分级出现在对单篇文献质量进行严格评价(critical appraisal)之后,对纳入的单项研究按照其设计类别,包括有效性研究(实验性设计、类实验性设计、观察性研究)、质性研究、诊断性试验、预后研究及经济学评价五个设计类别进行预分级,分为Level 1~5五个等级,以实现对证据的快速分类(表2-6-7)。其次参考GRADE标准的升降级原则,对证据体进行等级调整,最后按照JBI证据推荐级别形成推荐。JBI的证据推荐只分为两级,A级强推荐和B级弱推荐,判断依据不完全基于证据等级,还包括利弊因素、资源配置及患者的意愿和偏好(表2-6-8)。目前,该证据分级系统已在JBI及其50多个国际分中心的多项循证资源内广泛应用。
表2-6-7 JBI 2014版干预性研究证据预分级
表2-6-8 JBI 2014版证据推荐级别
随着循证医学在世界范围内的兴起,国内专家学者和团队不断探索有中医特色的临床证据分级和推荐体系,并应用于中医临床诊疗指南当中。
研究者认为在中医临床评价领域应引入GRADE体系。GRADE体系重视患者意愿的理念,与中医学以人为本的中心思想一致。在中医药领域引入卫生经济学分析,结合成本-效益-效果分析而形成决策推荐,能凸显中医药治疗不良反应小、方便、价廉等优点。需重视中医临床研究的质量提升、中医特色评价体系的构建、名老中医经验的研究等,将GRADE体系与中医药临床评价结合,形成与国际接轨的疗效评价体系。也有研究者探索了基于GRADE分级的中西医结合领域证据质量分级标准,认为GRADE系统中对于证据(尤其是系统评价)的偏倚风险评估,精确性、异质性、间接性评估,以及发表偏倚评估等方面同样适用于中西医结合证据评价。中医古籍文献和名家经验在中医体系中具有独特地位,中医临床中存在的“异病同治”及“同病异治”特点,这将对证据的一致性和异质性产生影响。
2014年,“治未病”标准化建设工作开展。有研究者提出“指南编制应结合医籍文献、专家经验与共识等,体现中医治未病和辨证论治特色”。该工作组整理制订包括“古代文献评价分级方法”在内的证据分级体系,其特色在于为中医古籍设计证据分级方法,将医案、个案、专家经验等评为Ⅳ级证据,官修、特定干预措施等评为最高级证据。提出“三证合一”的方法,即以GRADE评价为参考,以专家经验为特色,以专家共识为依据。学者在针灸临床实践诊疗指南制订过程中探索出“分层证据评分法”,形成古代文献分级,现代名医经验分级,现代文献证据通过GRADE标准的完整证据评价指标体系,通过层次分析法将证据集合成证据体,形成推荐方案(表2-6-9)。
表2-6-9 层次分析法证据评价指标体系
注:STRICTA,Standards for Reporting Interventions in Controlled Trials of Acupuncture,针刺临床试验干预措施报告的国际标准。
2007年,有学者针对中医临床研究领域,提出“基于证据体的临床研究证据分级”,目前在国内中医药领域制订指南中应用最为广泛。该体系借鉴国际的GRADE系统,基于“证据体”的概念,说明证据应由多来源、多研究方法构成。就中医理论类证据而言,未经验证或未广泛应用的证据为Ⅴ级,得到长期广泛应用的证据为Ⅳ级(表2-6-10)。2019年,有研究者对该体系作出了更新和完善。主要体现在:强调重视安全性研究的证据评价,增加证据等级升降级标准,吸取借鉴了国际公认的证据质量评价标准,分别提出系统综述、RCT、单病例随机对照试验、非随机对照试验、队列研究等降级标准以及部分非随机对照试验及队列研究或病例对照研究的升级标准,提出了基于核心结局的“证据体”,根据临床核心结局分为高、中、低三个级别,使临床医生更容易接受。
表2-6-10 基于证据体的临床研究证据分级
有研究者借鉴Delphi法,针对中医文献提出证据分级。该团队认为在中医药证据分级中,应重视古代名家经验,应对古代医家提出、长期实践有效、现代广泛应用且达成专家共识的治疗方法适当提高等级,即将“基于古今文献中的中医专家共识”列为第三级证据,与当代中医专家共识、专家意见作区别。2012年,该团队通过循证中医指南方法学的研究,提出了修订的“中医文献证据分级标准”,强化了中医证据的地位,这使中医经典医籍中的干预措施较之前可以获得更高的证据级别,并且能够作出推荐意见(表2-6-11)。
表2-6-11 基于 Delphi法的中医文献证据分级体系
有研究者提出了中医药临床指南和专家共识中推荐意见强度分级及含义,见表2-6-12。本标准将中医药指南/共识中的推荐意见分为“强推荐”“弱推荐”“不推荐”“不确定”四级,相较于GRADE的“强推荐”“弱推荐”“强不推荐”“弱不推荐”更具有临床操作指导意义。其中的“不确定”提示因目前的证据信息有限,无法权衡利弊关系,可供临床医生根据临床情况使用。另外,此处虽无法作出推荐,但可以给将来的研究提供借鉴与指导。
表2-6-12 中医药临床指南和专家共识中推荐意见强度分级及含义
注: a 若某种干预措施利远远大于弊,但是不同目标人群患者意愿差别较大的情况,此时应单独针对不同目标人群产生推荐意见; b 指南制订专家组规定的达成共识所需的一定比例的专家。
目前中医临床实践指南引用最多的证据包括:专家意见、无对照的病例观察报告、有对照组但偏倚风险较高的临床试验、单个小样本的RCT。此现状导致目前大多数中医临床实践指南在形成推荐意见时存在以下问题:没有严格按照证据质量形成推荐意见,没有明确说明推荐强度,证据分级与推荐强度不对应(即证据分级较低,但推荐强度较高),以及严格按照证据分级列出推荐强度但推荐强度较低。多数中医临床实践指南采取的仍是传统的专家共识形式,其有效性和可靠性认同度不高,再加上中医流派较多,不同的专家学者有不同的学术观点和习惯治疗方法,使专家共识的推广受限。基于共识的中医临床实践指南还须进一步完善与发展。
纵观证据分级体系发展历程和现状,在涉及研究领域方面,干预类研究的证据分级发展日渐成熟。其他研究领域尚在不断探索与完善中。在证据合并方面,面对更多的研究类型,包括定性研究、定性研究的系统评价、观察性研究的系统评价以及传统医学的古籍文献等,能否充分利用,将其作为证据纳入等级评价中,也是需要考虑的问题。随着循证医学的不断发展,如何评价、综合各种类型的证据,为医学临床决策提供可靠依据,依然是循证方法学专家面临的挑战。
[1]王行环.循证临床实践指南的研发与评价[M].北京:中国协和医科大学出版社,2016,21-57.
[2]王云云,靳英辉,陈耀龙,等.循证临床实践指南推荐意见形成的方法分析[J].中国循证医学杂志,2017,17(9):1085-1092.
[3]靳英辉,王丹琦,李艳,等.临床实践指南制定方法——国内外临床实践指南制定手册概要[J].中国循证心血管医学杂志,2018,10(1):1-10.
[4]BALSHEM H,HELFAND M,SCHUNEMANN HJ,et al.GRADE guidelines:3.Rating the quality of evidence[J].J Clin Epidemiol,2011,64(4):401-406.
[5]OCEBM Levels of Evidence Working Group.The Oxford Levels of Evidence2[EB/OL].[2020-12-16]. http://www.cebm.net/index.aspx.
[6]The Joanna Briggs Institute.The JBI Approach:Levels of Evidence [EB/OL].[2020-12-16]. http://joannabriggs.org/jbi-approach.html.
[7]World Health Organization.Global program on evidence for health policy.Guidelines for WHO Guidelines[EB/OL].[2020-12-16]. https://apps.who.int/iris/ bitstream/handle/10665/68925/;jsessionid=153E8F477 C52F557A99C07F9C019B614?sequence=1.
[8]National Institute for Health and Care Excellence.Developing NICE guidelines:the manual[EB/OL].[2020-12-16]. https://www.nice.org.uk/ process/pmg 20/chapter/ introduction.
[9]CEBM.Explanation of the 2011 OCEBM Levels of Evidence[EB/OL].[2020-12-16]. https://www.cebm.net/2011/06/explanation-2011-ocebm-levels-evidence/.
[10]黄笛,黄瑞秀,郭晨煜,等.临床实践指南制定方法——证据分级与推荐强度[J].中国循证心血管医学杂志,2018,10(7):769-776.
[11]师雨晴,谢红艳,陈青,等.基于中医临床指南探讨中医药领域证据分级体系的构建[J].吉林中医药,2020,40(11):1424-1428.
[12]李承羽,赵晨,陈耀龙,等.中医药临床指南/共识中推荐意见分级标准的制订[J].中医杂志,2020,61(6):486-492.
[13]刘建平.传统医学证据体的构成及证据分级的建议[J].中国中西医结合杂志,2007,27(12):1061-1065.
[14]汪受传,赵霞,虞舜,等.循证性中医临床诊疗指南的质量评价——AGREEⅡ工具及其应用[J].中华中医药杂志,2016,31(8):2963-2967.