在医学研究中,很多临床结局采用有序尺度进行测量,获得的结果常为多分类且有序的等级资料,在Meta分析时既要考虑结果的多分类形式,又要考虑结果的有序性。
Qizilbash等对他克宁(Tacrine,一种用于治疗轻中度老年痴呆症的药物)治疗阿尔茨海默病的效果进行Meta分析,测量结局采用临床总体印象变化(Clinical Global Impression of Change Scale,CGIC)进行评估,该量表分为7个等级,因1、7等级包含较多0,Whitehead等将该数据作为实例应用时,将1、2等级及6、7等级分别合并一类后则结果分为5个等级(C1-C5),如表5-1所示。
表5-1 阿尔茨海默病数据
研究结果按变量的属性可划分为计量资料、计数资料及等级资料。其中等级资料(ranked data)又称为半定量资料或有序分类数据(ordinal categorical data),是指将观察单位按照某种属性的不同程度分成等级后分组计数,汇总各组观察单位数后而得到的资料。
等级资料因描述数据的等级大小或属性程度而具有半定量性质,主要有两种类型:一类是建立在“顺序”或“序列”概念基础上的数据类型,将每个研究对象划分为按自然顺序排序的分类,如将疾病严重情况分为“轻、中、重”三个程度;一类是特殊类型的采用量表(measurement scales)获得的有序测量结局。
假设纳入研究的结局变量为 m 个等级有序分类变量, C 1 , C 2 ,…, C m 等,将 C 1 定义为最佳, C m 定义为最差,则有序数据可整理为如表5-2所示格式:
表5-2 有序数据格式
对于有序数据,可以根据原始文献作者采用的分析方法,分别将视为二分类数据、连续型数据等数据来处理,或直接使用有序数据来进行Meta分析:
如果有序分类较多或尺度较长,则视为连续型数据,可以采用均数差和标化均数差等效应指标。如果有序分类较少或尺度较短,则通过合并相邻的分类,变为二分类数据,可以采用 OR 、 RR 、 RD 等效应指标,但有时需要事先进行敏感性分析,选择不同的切割点,进行Meta分析。如果原始尺度分类比较少,则可以采用比例优势模型(proportional odds model)进行分析,该策略比将数据二分化分析更有效能,但需要一定的统计学知识和统计软件操作技能。本章主要介绍基于比例优势模型的贝叶斯Meta分析方法。
分析思路:第一步从比例优势模型中获得纳入Meta分析的每个研究的ln OR 及其标准误;第二步按贝叶斯正态-正态层次模型对数据进行合并。
当考察自变量对有序分类的因变量的影响时,需要采用有序多分类Logistic回归(ordinal Logistic regression)进行分析,最常用比例优势回归模型(propotional odds Logistic model),又称为累积比数Logistic回归模型(cumulative Logistic model)。假设因变量 y 为 j ( j =1,2,…,J)个等级的有序变量,对应概率为{ π 1 , π 2 ,…, π j },则小于等于 j 的累积概率(cumulative probability)为:
P ( y ≤ j )= π 1 +…+ π j
进行logit转换,则为:
若有 p 个自变量 X =( x 1 , x 2 ,…, x p ),则因变量 y 在自变量 X 上的Logistic回归模型为(为简单,设 p =1):
事实上,上式等价于累积概率函数:
P
(
y
≤
j
)=
。
例如,当 y 取值为1,2,3时,可获得两个累积概率模型,分别为:
该模型有( j -1)+ p 个待估参数,即 α j , β 1 。对于任意 j ,log itP 是自变量 X 的线性函数,截距项 α j 满足关系 α 1 < α 2 <…< α j 。回归系数 β 1 的意义是,当其他变量不变时, x 1 的两个不同的取值 a , b ,相应的比值比为 OR =exp[ β i ( b - a )];当自变量 X 为治疗组或对照组,即取值为0或1时,此时 β =ln( OR ),即为效应量。
[例5.1] 以阿尔茨海默病数据为例,说明R2jags包拟合比例优势比模型实现贝叶斯Meta分析的具体过程。
[解] 第一步,设置工作目录、种子数,加载包。
第二步,建立数据集。
第三步,使用程序包MASS提供的polr()函数进行ordered logit回归分析,从而获得每个研究的ln OR 及其相应方差;再从结果中分别提取出建立名为y和v的数据集,以备分析。
第四步,定义模型,加载数据,设置初始值及监控参数,拟合随机效应模型,显示结果。
主要结果如下:
结果解读:参数的
≈1,说明马尔可夫链已收敛;研究间的方差
τ
2
点估计及95%
CI
为0.064(0.001,0.384);合并效应量
OR
点估计及95%
CI
为1.623(1.155,2.191),提示与安慰剂相比,他克宁治疗阿尔茨海默病效果提高一个及一个以上等级的可能性增加62.3%。
假设纳入Meta分析第(
i
=1,2,…,
S
)个临床研究的结局变量有
m
个等级的有序分类变量
C
1
,
C
2
,…,
C
m
等,将
C
1
定义为最佳,
C
m
定义为最差。定义研究
i
中个体
j
属于
k
类的概率为
π
ijk
,则小于等于
k
类的累积概率为
Q
ijk
,即
Q
ijk
=
π
ij
1
+
π
ij
2
+…+
π
ijk
,Q
ijm
=1。因此,可得比例优势模型为:
,
k
=1,2,…,
m
-1。式中,
α
k
为第k个截距,
η
ij
=
β
1
x
1
j
+…+
β
p
x
pj
为因变量的线性组合。
有序数据的Meta分析可以在模型中加入随机效应项,采用累积比数的混合效应模型来进行分析,在此的混合效应模型与分层模型及多水平模型含义相同,患者为水平1,嵌套于高水平2(纳入的研究)中,混合效应模型为:
,式中,
β
1
i
=
γ
1
+
ν
1
i
,
ν
1
i
~
N
(0,
),因此上述模型可写为:
,式中
γ
1
为感兴趣的参数,表示相对于对照组,治疗组提高一个或一个以上等级比值比的对数。
Whitehead等给出了上述模型的BUGS代码(笔者在此基础上又增加了or参数),经测试,采用R软件R2jags、runjags等几个扩展包等均不能实现该代码,虽然与本书写作目的不一致,但仍提供WinBUGS软件拟合该模型的代码、数据输入、初始值(1条链)设置等方法,作为数据分析参考。
经过检验模型、载入数据、编译模型、载入初始值、变量监控(如gamma1、or、tau.sq)、模型迭代(迭代50000次,前20000次用于退火)、抽样等步骤,获得的主要参数后验分布结果如下:
结果解读:研究间的方差 τ 2 点估计及95% CI 为0.068(0.003,0.381);合并效应量 OR 点估计及95% CI 为1.638(1.157,2.189),提示与安慰剂相比,他克宁治疗阿尔茨海默病效果提高一个及一个以上等级的可能性增加63.8%。可以发现,结果与两步法结果非常接近。
本章使用的R语言主要函数见表5-3。
表5-3 本章使用的主要R语言函数
[1]HIGGINS J P,THOMAS J,CHANDLER J,et al.Cochrane Handbook for Systematic Reviews of Interventions version 6.1[EB/OL].2020.https://www.training.cochrane.org/handbook.
[2]WHITEHEAD A.Meta-Analysis Of Controlled Clinical Trials[M].New York:John Wiley&Sons,2002.
[3]张天嵩,董圣杰,周支瑞.高级Meta分析方法:基于Stata实现[M].上海:复旦大学出版社,2015.
[4]张天嵩,钟文昭,李博.实用循证医学方法学[M].2版.长沙:中南大学出版社,2014.
[5]MCCULLAGH P,NELDER J A.Generalized Linear Models[M].2nd Edition.New York:Chapman and Hall/CRC,1989.
[6]QIZILBASH N,WHITEHEAD A,HIGGINS J,et al.Cholinesterase inhibition for Alzheimer disease:a metaanalysis of the tacrine trials.Dementia Trialists Collaboration[J].JAMA,1998,280(20):1777-1782.