凡是不能连续取值的,或者说即使使用测量工具也得不到小数点以下数值,而只能得到0或1、2、3等自然数的一类数据,称为计数数据(count data),也称为离散型数据,可以作为“率”数据,通过拟合正态-正态模型、泊松-正态模型等合并效应量,本章以实例说明将计数数据作为“率”来处理的贝叶斯Meta分析方法。
Niel-Weise等进行了一项Meta分析,比较了使用抗感染治疗(干预组)与标准导管(对照组)进行全肠外营养或化疗时的导管相关性感染(catheter-related bloodstream infection,CRBSI)的风险。共纳入9个研究,含有5个变量,具体如表6-1所示。
表6-1 纳入Meta分析的研究数据
计数数据是临床研究及流行病研究中的一种重要的数据类型。此类数据取值为非负整数,比如癫痫发作次数、跌倒、大小便失禁次数等,这些事件可能发生0次,也可能发生很多次,从理论上讲发生次数没有最大值。实践中可以分为罕见事件和常见事件的计数数据。单位时间、单位面积、单位空间内某事件发生的次数,通常服从泊松分布。泊松回归是分析影响单位强度内事件发生次数影响因素的重要方法。对于以人群为基础的稀有疾病、卫生事件资料的分析,也可采用泊松回归。泊松分布数据的一个重要特征是均数等于方差,因此只有一个参数。当数据过度离散时,方差大于均数,此时可选用负二项回归进行拟合。常见的数据格式如表6-2所示。
表6-2 计数数据四格表格式
计数数据的Meta分析方法可以根据实际情况分为二分类数据、连续型数据、事件时间数据或稀疏数据,采用倒方差法合并效应量。对于常见计数数据,如龋齿(蛀牙)、牙齿脱落等,可以作为连续型数据处理(如每个患者经历事件的平均数);如果系统评价员明确每个干预组的受试者人数和每个干预组至少经历了事件的受试者人数,则可以作为二分类数据处理,把数据整理成发生一次或一次以上人数比未发生事件人数;对于计数数据中罕见事件不止一次发生,则可以将其作第一次事件发生时间(time-to-first-event)数据处理,作为至事件时间数据(time-to-event data)处理,可以采用生存分析(如COX回归)计算 HR 及其方差或标准误;如果获得每个组的发生事件数和每人时风险总数,则可以将计数数据作为“率(rates)”来分析,在Meta分析时,合并效应量多选择“率比”(rate ratio),有时也选择“率差”(difference in rates),这两种效应量均可以采用经典Meta分析的倒方差法进行合并。
如果以率作为测量指标来分析,计数数据的贝叶斯Meta分析建模主要有两种方法,一是基于正态-正态分布层次模型;二是泊松-正态分布层次模型。
与连续型数据贝叶斯Meta分析模型和过程相似,首先计算获得发病率比(incidence rate ratio,
IRR
),假设
IRR
取对数后服从正态分布,然后进行估计。假设干预组人时
T
1
i
发生事件数为
E
1
i
,对照组人时
T
2
i
发生事件数为
E
2
i
,则发病率比为:
,相应对数后的标准误及方差分别为
。
令
d
i
=ln(
IRR
i
),
=
Var
[ln(
IRR
i
)],则正态-正态分布层次模型如下:
固定效应模型为
d
i
~
Normal
(
μ
,
),
μ
为
d
i
的加权均值,为估计效应值;随机效应模型为
d
i
~
Normal
(
μ
i
,
),
μ
i
~
Normal
(
θ
,
τ
2
),
θ
为合并的均值,
τ
2
为研究间的方差,二者为模型待估计参数。
[例6.1] 以导管相关性感染数据为例,说明R2jags包拟合计数数据贝叶斯Meta分析的正态-正态分布层次模型。
[解] 第一步,设置工作目录、种子数,加载包,定义模型。
第二步,以data.frame()函数建立一外名为dat.nielweise的数据集,并以metafor包的escalc()函数计算ln( IRR )及其方差。
第三步加载数据,设置初始值和监控参数,拟合模型,显示结果。
主要结果如下:
结果解读:由各参数
≈1可知,马尔可夫链已收敛;研究间异质性方差点估计及95%
CI
为0.348(0.000,1.818);合并后的
IRR
点估计及95%
CI
为0.684(0.362,1.138)。
对于计数数据,当数据的均数近似等于方差时,可采用泊松分布来拟合。泊松-正态分布模型为精确分布,可避免事件数为0时导致有偏估计。设干预组事件数为
y
t
,对照组事件发生数为
y
c
,相应的总人时数为
T
t
、
T
c
,则
y
t
、
y
c
均服从泊松分布,则泊松-正态分布模型如下:
y
t
~
poisson
(
T
t
λ
t
),
y
c
~
poisson
(
T
c
λ
c
);
。
固定效应模型为
d
i
~
Normal
(
μ
,
),
μ
为
d
i
的加权均值,为估计效应值;随机效应模型为
d
i
~
Normal
(
μ
i
,
),
μ
i
~
Normal
(
θ
,
τ
2
),
θ
为合并的均值,
τ
2
为研究间的方差,二者为模型待估计参数。
[例6.2] 以导管相关性感染数据为例,说明R2jags包拟合计数数据贝叶斯Meta分析的泊松-正态分布层次模型。
[解] 第一步,设置工作目录、种子数、加载包,定义模型。
第二步,从[例6.1]已建立的dat.nielweise数据中选取相关变量建立列表数据,设置初始值和监控参数,拟合模型,显示结果。
主要结果如下:
结果解读:由各参数
≈1可知,马尔可夫链已收敛;研究间异质性方差点估计及95%
CI
为0.416(0.001,1.940);合并后的
IRR
点估计及95%
CI
为0.631(0.318,1.063)。
本章使用的R语言主要函数见表6-3。
表6-3 本章使用的主要R语言函数
[1]HIGGINS J P,THOMAS J,CHANDLER J,et al.Cochrane Handbook for Systematic Reviews of Interventions version 6.1(updated September 2020)[M/OL].Cochrane,2020.Available from www.training.cochrane.org/handbook.
[2]张天嵩,钟文昭,李博.实用循证医学方法学[M].2版.长沙:中南大学出版社,2014.
[3]张天嵩,董圣杰,周支瑞.高级Meta分析方法:基于Stata实现[M].上海:复旦大学出版社,2015.
[4]MCCULLAGH P,NELDER J A.Generalized Linear Models[M].2nd Edition.New York:Chapman and Hall/CRC,1989.
[5]NIEL-WEISE B S,STIJNEN T,BROEK P J.Anti-infective-treated central venous catheters for total parenteral nutrition or chemotherapy:A systematic review[J].J Hosp Infect,2008,69(2):114-123.
[6]STIJNEN T,HAMZA T H,OZDEMIR P.Random effects meta-analysis of event outcome in the framework of the generalized linear mixed model with applications in sparse data.[J].Stat Med,2010,29(29):3046-3067.