诊断性试验(diagnostic test)是临床医生为了对人体生理或精神疾病及其病理原因作出判断,而采取的从就诊者获取有关疾病的更多信息的方法。它不仅包括各种实验诊断、影像诊断、仪器诊断,也包括一些病史及临床检查提供的资料。采用循证检验医学的方法,科学地研究和评价诊断性试验是正确认识其临床应用价值、合理选用各种诊断性试验、科学解释各种诊断性试验结果的基础。
诊断性试验通常采用国际通用的四格表盲法比较法,即将待评价的诊断性试验与标准诊断方法进行盲法比较的方法进行评估,基本过程为将有关数据填入四格表(表3-2-1),计算诊断性试验性能评价指标和结果分析。
表3-2-1 诊断性试验检测结果
动态心电图对冠心病(coronary artery heart disease,CHD)的诊断性能评价。经诊断金标准(冠状动脉造影)诊断,CHD患者236例,非CHD
患者48例;动态心电图显示ST段下降>0.05mV,升高>0.2mV,持续时间>2分钟者共248例,其中220例为CHD患者;动态心电图无上述异常者共36例,其中20例为非CHD患者。
将上述有关数据填入四格表(表3-2-2)。
表3-2-2 动态心电图诊断冠心病检测结果 单位:例
在“盲法”的条件下,运用标准诊断方法将研究对象区分为实际有病和实际无病两组,再用待评价的诊断性试验将相同研究对象划分为阳性和阴性两组,并列出四格表,得出真假阳性和真假阴性的结果,最后计算敏感性、特异性、预测值等诊断性能评估指标。由于“患者”与“非患者”诊断性试验结果的分布在通常情况下存在部分重叠,试验结果与患某病情况之间有4种关系,包括真阳性(true positive,TP)、假阳性(false positive,FP)、真阴性(true negative,TN)、假阴性(false negative,FN)。
金标准(gold standard)或参考标准(reference standard)是指目前公认的、可靠的诊断方法,它能正确地区分有病和无病。临床上常用的金标准有组织病理学检查(活检、尸检)、手术发现、影像诊断(CT、磁共振、彩超)、病原体的分离培养及长期随访所得的结论。
计算诊断性试验性能评价指标:
(1)敏感性( Sen )= a /( a + c )=220/236=93.2%
(2)特异性( Spe )= d /( b + d )=20/48=41.7%
(3)诊断准确度( AC )=( a + d )/( a + b + c + d )=240/284=84.5%
(4)患病率( P )=( a + c )/( a + b + c + d )=236/284=83.1%
(5)阳性预测值( PPV )= a /( a + b )=220/248=88.7%
(6)阴性预测值( NPV )= d /( c + d )=20/36=55.6%
(7)阳性似然比(+ LR )= SEN /(1− SPE )=93.2%/(1− 41.7%)=1.6
(8)阴性似然比(− LR )=(1− SEN )/ SPE =(1−93.2%)/41.7%=0.2
(9)诊断比值比( DOR )=+ LR /− LR =1.6/0.2=8
1.真实性评价指标 真实性(validity)又称准确性(accuracy,AC),是诊断性试验测量值与实际值的符合程度,即判断受试者有病与无病的能力。主要指标包括敏感性(sensitivity,Sen)、特异性(specificity,Spe)、诊断准确度(accuracy,AC)、阳性预测值(positive predictive value,PPV或+PV)、阴性预测值(negative predictive value,NPV或−PV)、阳性似然比[positive likelihood ratio,+LR或LR(+)]、阴性似然比[negative likelihood ratio,−LR或LR(−)]、诊断比值比(diagnostic odds ratio,DOR)及验后概率(post test probability)等。
2.可靠性评价指标 可靠性(reliability),又称重复性(repeatability)、精密度(precision),是诊断性试验在完全相同的条件下进行重复试验得到相同结果的稳定程度。诊断性试验或方法的可靠性可以用变异系数或符合率来表示。
对结果进行判断。以动态心电图是否显示ST段下降>0.05mV,升高>0.2mV,持续时间>2分钟进行判断:①应用该诊断性试验检查,在患者中得到阳性结果的百分比为93.2%,在非患者中得到阴性结果的百分比为41.7%,诊断准确度为84.5%,患病率为83.1%;②试验结果阳性者属于真病例的概率为88.7%,试验结果阴性者属于非病例的概率为55.6%;③ +LR 为1.6,指试验阳性时,患病与不患病的机会比为1.6; − LR 为0.2,指试验阴性时,患病与不患病的机会比为0.2。
一项诊断性试验的结果能否合理解释,临床意义有无及大小,取决于该诊断性试验的结果在某种疾病患者和非疾病患者之间是否存在差异性,有无判断的标准,以及诊断的可信度等因素,因此,诊断性试验诊断性能评估的内容包括临床意义解释的依据(如参考值、分界值等)和对疾病诊断效率(如敏感性、特异性等)的评估。
依据诊断性试验诊断性能评价的基本原则,采用受试者操作特征(receiver operating characteristic,ROC)曲线分析方法设计原始评估方案。设计方案应包括评价试验方法和结果分析两个部分,必要时给出提高诊断性能的方法。
心肌型脂肪酸结合蛋白(heart type fatty acid binding protein,H-FABP)诊断急性心肌梗死(acute myocardial infarction,AMI)的诊断性能评价研究。
依据诊断性试验诊断性能评价的基本原则设计评价试验方案。
(1)确定研究对象的纳入和排除标准:
纳入以急性胸痛为主诉就诊于医院急诊科与心内科门诊的患者,包括重型、轻型病例及未治疗的患者。排除外伤、肌肉病变、内分泌疾病及肾功能不全者。
(2)确定金标准:
以1979年WHO发布的AMI诊断标准作为金标准,将上述纳入的急性胸痛症状患者分为AMI确诊患者与疑似患者。以下3项具备2项即可确诊为AMI:①急性胸痛症状;②心电图示坏死性Q波或ST段抬高或压低;③心肌酶谱先升高或降低的典型过程。
(3)确定抽样方法:
采用简单随机抽样。以患者确诊后开始溶栓治疗或直接经皮冠状动脉腔内成形术(percutaneous transluminal coronary angioplasty,PTCA)为结局指标。
(4)样本含量的确定:
估计检测指标的 Sen 为90%、 Spe 为80%,检验水准α取双侧0.05,允许误差取0.1。根据公式计算所需要的阳性样本为35,阴性样本为61。根据实际情况共纳入急性胸痛患者133例,最后经金标准确诊AMI确诊患者有46例,疑似患者87例。
(5)标本的采集与定量:
患者均于接诊即刻抽血,采血5ml,置于促凝剂试管中,1 620g离心5分钟分离血清,即刻测量血清cTnI和肌红蛋白(myoglobin,Myo),剩余血清分装2份冻存在−20℃冰箱中备用以检测H-FABP。采用单盲原则测量,检测技师在未知被测标本所代表患者的确诊诊断的前提下完成所有的定量检测工作。
(6)数据处理:
采用SPSS25.0软件进行ROC曲线的绘制及曲线下面积(area under curve,AUC)的计算和分析。各指标AUC的比较采用单一变量的 Z 检验, P <0.05被为差异有统计学意义。
各指标的阈值(threshold)确立采用函数法,“敏感性( Sen )+特异性( Spe )”取最大值时所代表的诊断界值被定义为阈值。各试验组合的综合 Sen 、 Spe 、 AC 的比较采用两样本率比较的正态近似法, P <0.05为差异有统计学意义。
(7)与已有的心肌标志物比较:
将H-FABP的诊断准确性指标与cTnI、Myo进行比较。
诊断性试验诊断性能评价的基本原则:①采用盲法将诊断性试验与标准诊断法(金标准)进行对比。诊断性试验必须与金标准比较,才能确定是否可靠。盲法指试验结果判断者在不知道研究对象是否有病的条件下,按照诊断标准判断研究对象是否有病,保证试验结果的客观性。②被检查的病例和对照要具备代表性。病例应包括各型临床病例及易于混淆的病例。诊断性试验所选择的研究对象应与临床实践的情况相似,病例的代表性愈好,其试验结果越具有推广意义,对照组应在性别、年龄、某些生理状态等方面与病例保持均衡。③应叙述病例和对照的来源。由于不同人群某病患病率(验前概率)存在差异,对诊断性试验的临床价值有一定的影响。④诊断性试验所确定的阈值合理、可靠。建议采用ROC曲线确定阈值。⑤诊断性试验的样本例数合适。⑥诊断性试验的重复性好。⑦诊断性试验应经过另一研究确认。⑧诊断性试验的设计方案最好采用前瞻性队列研究。
采用ROC曲线方法分析研究结果。
(1)确定阈值,并计算诊断性能指标:
根据ROC曲线及“ Sen + Spe ”取最大值的原则确立的H-FABP用于诊断AMI的阈值为5.7ng/ml。在此阈值下的诊断敏感性和特异性分别为78.3%和85.4%。诊断性能指标计算参见本节中的相关内容。
(2)不同标志物间的性能比较:
依ROC曲线计算出的cTnI、Myo、H-FABP的AUC分别为0.938、0.743、0.919。与H-FABP的ROC曲线下面积相比,cTnI与之的大小差异无统计学意义( Z =0.614, P =0.542),而Myo小于H-FABP( Z =4.067, P <0.001)。因此,H-FABP在诊断性能上优于Myo,而与cTnI差别不大。
ROC曲线是根据一系列不同的二分类方式(阈值或决定阈),以真阳性率(敏感性)为纵坐标,假阳性率(1−特异性)为横坐标绘制的曲线。与传统的评价方法不同,ROC曲线的评价方法允许有中间状态,把试验结果划分为多个有序分类(如正常、大致正常、可疑、大致异常和异常等)再进行统计分析。ROC曲线分析是临床科研文献中应用最广泛的统计学方法,是国际公认的比较、评价两种或两种以上诊断方法的性能差异性的客观标准。
ROC曲线的主要作用:①查出任意界限值对疾病的诊断能力,ROC曲线上的每一点代表某一分界值的一对敏感性和特异性,ROC曲线包含着选择任意界限值时的敏感性和特异性;②选择最佳的诊断阈值,ROC曲线是表示敏感性与特异性之间互相关系的一种方法,曲线左上角的转弯处即为敏感性与特异性均较高的分界值;③比较两种或两种以上不同诊断试验对疾病识别能力,可将各试验的ROC曲线绘制到同一坐标中,以直观地鉴别优劣,靠近左上角的ROC曲线所代表的试验最准确,亦可通过分别计算各个试验的ROC曲线下的面积(AUC)进行比较,AUC最大者的试验的诊断价值最佳。
依据H-FABP、Myo和cTnI等诊断试验的特点,通过联合试验提高诊断敏感性或特异性。
1.选择高患病率的人群,提高阳性预测值 从Bayes公式可知,当诊断方法的敏感性和特异性不变时,阳性预测值随患病率(验前概率)的升高而变大。因此,临床上可通过询问病史、体格检查或高危人群的筛选等手段,减少假阳性病例数来提高患病率,进而提高阳性预测值,使患者得到及时确诊。
2.利用联合试验来提高诊断敏感性或诊断特异性 通常联合使用两种或更多种的试验来提高诊断敏感性或诊断特异性性。A和B两种试验的两种联合方法如下。
(1)平行试验(并列法):A、B两试验同时做,有一项为阳性者就判断为阳性。可见平行试验可提高诊断敏感性,但降低了特异性。
(2)系列试验(序列法):A、B两试验中,先做A,A为阳性者再做B,A、B都为阳性就判断为阳性。可见系列试验可提高特异性,但降低了敏感性。系列试验中,应先做特异性高的试验。
依据系统评价的基本原则,按照系统评价方法的基本步骤进行系统评价。
系统评价的基本步骤包括提出拟解决的问题、制订系统评价计划书,系统、全面地检索、选择和评价相关研究文献,对纳入的文献进行质量评价,提取、分析数据和报告结果,解释系统评价的结果等。评价过程中要特别注意研究问题、检索策略、纳入和排除标准、数据提取、统计分析等。如果检索到多篇原始研究,结果是临床和统计学上同质性很好的计量资料可采用荟萃分析方法进行汇总,计算总敏感性、总特异性、总诊断优势比(diagnostic odds ratio),绘制综合ROC(systematic ROC,SROC)曲线,计算AUC。
根据循证检验医学的观点,新的定量诊断性试验的诊断性能评价包括原始研究和荟萃分析两个步骤。
血清降钙素原(procalcitonin,PCT)对成人颅内感染诊断价值的荟萃分析。
诊断性试验诊断性能评价的荟萃分析。
主要是检索相关的文献资料,纳入所有可以提供四格表资料的研究,进行荟萃分析,绘制SROC曲线,判断新指标有无诊断价值。该荟萃分析为诊断性荟萃分析,获得的研究原始数据必须能够得到四格表资料。
系统评价的基本步骤具体如下。
(1)确定纳入标准:
①研究类型,PCT诊断颅内感染且与金标准对照的诊断性研究试验;②研究对象,年龄大于18周岁成年人;③研究类型,前瞻性研究或回顾性研究;④金标准,脑脊液病原学检查;⑤能直接或间接获得完整的诊断四格表数据,且可获取全文,发表语言限于英文和中文。
(2)确定检索策略:
计算机检索PubMed、EMbase、Cochrane Library、中国知网(CNKI)、万方数据知识服务平台、维普(VIP)。数据库检索时间设定为建库至2018年12月31日。
检索策略:
①研究指标(PCT)(MeSH主题词,OR自由词);②诊断性试验临床试验(准确性指标)(MeSH主题词,OR自由词);③目标疾病(MeSH主题词,OR自由词);④为①+②+③。目标疾病自由词较多,为避免漏检文献,未作目标疾病限定,直接采用阅读标题和摘要方式筛选文献。
英文检索词:
①“Procalcitonin”[MeSH],“PCT”“Calcitonin Precursor Polyprotein”“Calcitonin-1”“Calcitonin 1”“Calcitonin Related Polypeptide Alpha”“Pro-Calcitonin”;②“Sensitivity and Specificity”[MeSH],sensitivity,specificity,Sensitivity-and-Specificity,“sen*”“spe*”,NPV,PPV,LR,AUC,ROC,“false-negative rate”“false negative rate”“false positive rate”“false-positive rate”。
中文检索词:
降钙素原、PCT、诊断、准确性、敏感度、特异度、敏感性、特异性、似然比、预测值、ROC曲线。
此外,手工检索时间为1980年1月—2018年12月的中文期刊,如《心血管康复医学》《心血管病学进展》《心脏杂志》《临床心血管杂志》《中国循环杂志》《中国心血管杂志》《中华心血管病杂志》《临床急诊杂志》《中国急诊医学杂志》《中国实验诊断学》《中华老年医学杂志》《中华老年心脑血管病杂志》《临床检验杂志》《中华医学检验杂志》《临床检验杂志》《上海医学检验杂志》。
(3)文献质量的评价:
采用QUADAS-2工具评价文献质量及发生偏倚的可能性,每个项目按“是”“否”“不清楚”三个判断标准进行评价,2名评价员独立进行文献评价,并通过讨论解决分歧。
根据提出的问题设计详细的选择标准和选择程序。纳入标准和排除标准主要依据研究问题及其构成要素制定,并应用此标准对文献进行筛选,提高原始研究的研究方法的均质性。为了避免选择和评价者的主观偏倚,可以考虑一篇文章由多人或盲法选择和评价,也可采用专业和非专业人员相结合的共同选择和评价的方法。对有疑问或有分歧的文献可联系作者获得更多信息,也可通过共同讨论或请第三方审核的方法解决分歧。
文献质量指单个临床试验在设计、实施及分析过程中防止或减少系统误差和随机误差的程度。文献评价主要包括3个方面内容:①内在真实性(internal validity),即单个研究结果接近真值的程度;②外在真实性(external validity),即研究结果的实用价值和推广应用的条件;③影响结果解释的因素。
(4)确定测量指标:
确立采用哪些准确性和有效性指标。测量指标采用敏感性、特异性、准确度、阳性与阴性预测值、阳性与阴性似然比、诊断比值比。
(5)原始数据的提取与处理:
从原始文献直接获得、计算得到或直接向作者索取诊断性试验研究四格表中的相关数据[真阳性结果数( a )、假阳性结果数( b )、假阴性结果数( c )和真阴性结果数( d )]。
(6)确定统计学方法:
根据PCT的阳性临界值(ng/ml)分组,利用meta-disc软件、Stata软件进行各预定研究组综合比值比(odds ratio,OR)分析及异质性检验,然后分别计算综合敏感性、特异性、准确度、阳性预测值、阴性预测值、阳性似然比和阴性似然比。并进行SROC拟合分析,并获得ROC曲线下面积。
(7)研究结果:
纳入9篇文献( n =1 446),各研究间有异质性 P >0.05, I 2 =88%,合并敏感性0.86( 95%CI 0.82~0.89),合并特异性0.91( 95%CI 0.89~0.92),SROC曲线下面积0.935 7, SE =0.015 9。
1.提取数据 根据计划书收录的有关数据资料:①一般内容,如文献的题目、调查者的姓名、原始文献编号和来源等;②研究特征,如文献的设计方案和质量、研究措施的具体内容及实施方法、防止偏倚的措施、主要的试验结果等;③研究对象的特征和数量、干预的内容和实施情况等;④结果测量,如随访时间、失访和退出情况,计数资料收集每组例数及事件发生率,连续性资料收集每组例数、均数和标准差或标准误等。然后将数据输入系统评价管理软件(Review manager,RevMan),进行结果的定量分析和报告。
2.分析数据和报告结果 对收集的数据进行定性或定量统计分析,以获得相应的结果。在定量分析时,应该根据评价的目的及资料的变量类型确定统计分析的内容和方法,并对不同原始研究进行异质性检验。评价结果稳定性和强度时,对影响结果的重要因素进行敏感性分析,以观察干预措施的效应值和同质性是否发生改变。
3.解释系统评价的结果 为了帮助医务工作者和决策者对文献进行正确地选择和应用,评价者应对系统评价的结果进行解释。解释系统评价的结果应该包括评价的论证强度、推广应用性、干预措施对患者的利弊和费用、实用价值,以及对今后研究的指导意义等。
诊断性试验诊断性能评价的原始研究。若已有的证据不能证实新指标具备任何诊断价值,则不需要进行下一步的研究;若荟萃分析的结果证实SROC曲线下面积超过0.5,或诊断指标的综合准确性指标和有效性指标优于目前的类似试验,则有必要进行进一步原始研究。纳入代表本地区的人群进行分析,获得适合受试人群和实验室的阈值,获得相应的诊断准确度指标与诊断有效性指标等。根据以上荟萃分析的结果,血清PCT诊断成人颅内感染具有较好的诊断准确性,可作为颅内诊断和鉴别诊断的一项重要参考指标。因此,需进一步设计进行原始研究,具体评价方法参见诊断性能评价原始研究实例部分。
依据临床实践指南制定的原理和方法,以诊断试验和试验结果为基础,制定检验医学的临床实践指南,并根据临床实践指南的质量选择性使用,指导临床检验工作。
根据疾病发生和演变特征的优化组合。
例如,心肌标志物应用价值的循证研究结果指出:①对诊断急性心肌梗死(AMI),心肌肌钙蛋白已成为最佳的心肌损伤标志物;②乳酸和天冬氨酸转氨酶的诊断敏感性和特异性均低,肌红蛋白(myoglobin,Mb)在骨骼肌十分丰富,对AMI缺乏特异性,已不再作为临床常规使用的心肌标志物;③对诊断复发性心肌梗死,检测肌酸激酶同工酶(creatine kinase isoenzymes,CK)-MB更为有效。Mb测定,仅用于心电图检查结果阴性,cTnT、cTnI和/或CK-MB检测结果阴性,发病2~6小时内可疑心肌梗死患者的排除诊断。因此,“Mb-CK-cTn”组合对诊断AMI的临床价值,代表AMI发病后不同时间阶段的临床意义。
根据疾病的筛检、监测过程需要的优化组合。
例如,糖尿病的诊断和治疗的循证检验医学指南建议:①血浆葡萄糖(glucose,GLU)的测定仍然是糖尿病诊断的金标准;通常情况下,在质量合格的实验室进行的血糖测定可以用于糖尿病的诊断和高危人群的筛选;不建议将实验室的血糖分析用于常规监测或疗效评价。而血糖仪测定的血糖结果由于不精确且易变,因此不应该用于糖尿病的诊断,在筛选患者方面也有局限性;鉴于口服葡萄糖耐量试验(oral glucose tolerance test,OGTT)重复性差,也不推荐将OGTT作为1型或2型糖尿病的常规诊断。②糖尿病患者至少每半年应检测一次糖化血红蛋白水平,以反映其血糖控制的状况,因为糖化血红蛋白水平与糖尿病慢性并发症的发生、发展相关。③糖尿病是晚期肾病的首要诱因,因此建议临床没有蛋白尿的患者应一年作一次尿微量白蛋白的检测。④血酮体、尿酮体的检测可以辅助诊断糖尿病患者的酮症酸中毒,但不宜用于对酮症酸中毒患者的治疗监测。⑤所有的患者每年都应作一次脂质的测定,胰岛素、C肽或胰岛素原的测定对大多数糖尿病患者没有意义,对于研究有用。同样,瘦素的测定对于糖尿病患者的治疗也没有价值。⑥不推荐将遗传标志物、自身抗体作为糖尿病患者诊断和治疗的常规测定指标。
根据组织器官功能特点的优化组合。
例如,肝功能的两大特点:①肝功能复杂,任何一项设计检查肝功能的检验项目,只能反映肝功能的一个侧面;有些检测项目的异常,仅在肝损害达到一定程度才发生异常改变;有些检测项目又非肝脏特异。②肝脏代偿能力强。目前,一方面,尚无特异且灵敏的早期诊断肝功能的试验;另一方面,即使肝功能试验正常也不能排除肝脏早期病变。
因此,筛检肝损害的优化组合检测项目,最常用的只有8项:天冬氨酸转氨酶(aspartate aminotransferase,AST)、丙氨酸转氨酶(alanine aminotransferase,ALT)、碱性磷酸酶(alkaline phosphatase,ALP)、γ-谷氨酰转肽酶(γ-glutamyl transpeptidase,γ-GT)、胆红素(bilirubin,BIL)、白蛋白(albumin,ALB)、凝血酶原时间(prothrombin time,PT)、5-核苷酸酶(5-nucleotidase,5-NT)。
编制临床实践指南的主要步骤:①确定指南拟解决问题的重要性(发病率、结局的严重性、费用)及制定指南的必要性、目的和适用范围;②成立一个多成员组成的指南制定小组,确立制定指南的规范程序;③收集文献和系统评价,循证过程中最重要的步骤就是对所收集的证据进行质量评价;④征求专家意见;⑤指南文件的正式发布;⑥定期更新指南。
在临床检验项目方面,临床实践指南制定涉及的常见内容见表3-2-3。
表3-2-3 临床检验诊断项目实践指南的常见评价环节和内容
(涂建成)