20世纪60年代,美国的2位学者Campbell和Stanley首次提出证据分级的概念,将随机对照试验的质量定为最高,并引入内部真实性和外部真实性的概念,奠定了证据评价与分级的基础。1979年,加拿大定期体检工作组(Canadian Task Force on the Periodic Health Examination,CTFPHE)首次对研究证据进行系统分级并给出推荐意见。此后多个机构和组织制定了证据分级和推荐强度标准,但方法和标准各自不一,其中最具代表性的为2001年英国牛津大学循证医学中心推出的分级标准。2004年,“推荐级别的评估、制定与评价”(The Grading of Recommendations Assessment,Development and Evaluation,GRADE)工作组推出国际统一的证据分级和推荐意见标准GRADE系统。
2001年5月牛津大学循证医学中心推出牛津证据分级与推荐意见强度(表7-4)。牛津证据等级标准首次在证据分级的基础上提出分类的概念,涉及治疗、预防、病因、危害、预后、诊断、经济学分析7个方面,针对性和适用性强,成为当时广泛使用的标准之一。但这套标准较为复杂,不易理解和掌握,使其在实际推广中存在一定的困难。
表7-4 2001年牛津证据分级与推荐意见强度
注:引自《循证医学》,李幼平主编 [7] 。
GRADE系统 [8] 是由2000年建立的GRADE工作组创立的一套证据评级系统,于2004年正式推出。GRADE系统使用易于理解的方式评价证据质量和推荐级别,目前已被WHO、Cochrane协作网等100多个国际组织或协会采用。
与目前存在的其他众多分级标准相比,GRADE系统具有以下优势:①由具有广泛代表性的国际指南制定小组制定;②对证据质量和推荐强度有明确的定义;③清楚评价了不同治疗方案的重要结局;④对不同级别证据的升级与降级有明确、综合的标准;⑤从证据分级到推荐强度全过程透明;⑥明确承认患者的价值观和意愿;⑦分别从临床医师、患者、政策制定者的角度对推荐意见的强弱作出明确实用的诠释;⑧适用于系统评价、卫生技术评估和指南的制定。
GRADE系统将证据质量分为“高、中、低和极低”4个等级,将推荐强度分为“强推荐和弱推荐”2个等级,并提供用以描述的符号、字母或数字 [9] (表7-5和表7-6)。
表7-5 GRADE证据质量分级
表7-6 GRADE推荐强度分级
(伍俊妍 苏 晨)