传染病监测数据内容丰富,数据类型多样,需要把各类监测数据进行整合归类、清理分析,才能掌握数据内涵,真正了解传染病发生发展规律,有效实现传染病监测目的。
根据监测内容的不同,可将传染病监测数据分为来自病例、病原学、媒介生物及自然环境等的监测数据。
包括病例基本信息、就诊信息、主要临床症状体征、发病死亡信息、免疫状况、卫生行为及其相关危险因素等数据。
包括样品种类、采集时间、检测方法、培养分离鉴定、病毒型别、抗原抗体检测结果、耐药情况等数据。
包括媒介生物(宿主动物)种类构成、密度和病原携带情况等数据。
包括气象气候、空气质量、水质、食品安全等数据。
从统计学角度,可将传染病监测数据分为定性资料和定量资料。
又称计数资料或名义变量资料,包括二分类、无序多分类和有序分类资料。二分类资料表示数据取值有两个类别,如性别(男性或女性)、是否有暴露史、是否发病等;无序多分类资料的数据取值存在三个或以上类别,且类别之间无等级之分,如职业、现住址地区等;有序分类资料的数据取值之间存在程度或等级差异,如新型冠状病毒感染病例的临床分型根据病情严重程度可分为无症状感染者、轻型、普通型、重型、危重型。
又称计量资料或数值变量资料,包括连续型定量资料和离散型定量资料。连续型定量资料的取值可为实数范围内的任意值,如某地区某时间段内某种传染病的发病率、死亡率;离散型定量资料只能取整数,如某地区某时间段内某种传染病的发病数、死亡数。
医疗机构是传染病监测数据重要的来源之一。现有很多病例监测数据都是通过医疗机构进行收集的,包括病例的就诊信息、症候群信息以及部分病例病原学监测标本收集,病例被诊断为传染病后的疫情报告等。
包括媒介生物监测、宿主动物监测、水质监测、食品安全监测、行为危险因素监测以及禽流感职业暴露人群监测等,通过专业机构特定的监测系统进行数据收集。
学校、企业等集体单位通过每天对每个学生(职工)因为疾病无法正常到校(到岗)的原因、症状、疾病诊断等情况进行登记,实时、动态监测学生(职工)的健康状况。
农林、气象、工商、教育、公安、出入境等部门收集的监测资料,如土地利用、气象气候、医疗保险记录、出入境人员和物品检验检疫、公安监控数据和工信移动通信设备的轨迹数据等。
包括官方、半官方或信誉良好的网络媒体,以及一些非官方的网站或媒体。前者如WHO、全球公共卫生情报监测系统(GPHIN)、全球疾病警报地图(HealthMap)、新发疾病监测系统(ProMED-Mail)、医学情报系统(MedISys)、疫情守护者(Flowminder),以及各国各地卫生行政部门、疾控机构网站等,这些信息真实性较高,可利用性强;后者真实度较低,需进行专业辨别和核实。近年来,网络搜索引擎中传染病相关搜索词的检索量也逐渐成为传染病监测信息的来源之一。
来自药店销售、急救中心、公众举报和咨询电话等其他监测数据:包括来自药店的关于感冒药、止咳药、抗生素、退热药、止泻药等药物的销售记录,来自急救中心的出诊记录,以及来自公共卫生热线的公众举报和咨询电话等。
传染病监测数据分析的基本步骤可归纳为以下步骤。
常见的传染病监测数据分析目的包括掌握传染病的发生、分布特点和变化规律,探索传染病发生的影响因素,预测传染病流行趋势、异常变动情况,评价控制措施的效果等。
数据分析应做到先简单后复杂、先描述后分析,逻辑清晰,由浅入深,突出重点。
紧紧围绕分析目的,明确需要从哪些方面开展哪些内容的分析,并列出详细的分析提纲,包括每项分析内容所用到的具体分析指标、分析方法、呈现的图表类型,可以预先设计好分析所需的表格框架。
根据分析目的和内容,收集和整理监测资料,说明数据的来源、时间、地区范围和采集方式等信息。获得数据后,需对数据进行预处理,包括数据清洗、数据转换、数据整合等。数据清洗包括去除重复值、处理缺失值和异常值等。数据转换是根据分析目的和统计方法的需要,对数据进行规范化、标准化、归一化等处理或转换。如体温数据本身为连续型定量资料,根据是否发热可将体温数据转换为二分类资料,如不发热(<37.3℃)或发热(≥37.3℃);或者根据发热程度的不同,将体温数据转换为等级资料,如不发热(<37.3℃)、低热(<38℃)、中度发热(38~38.9℃)、高热(39~40.9℃)、超高热(≥41℃)等。需要注意的是,数据类型转化只能从高级向低级转换,即连续型资料→有序分类资料→无序多分类资料→二分类资料。因此,在收集监测数据时,应尽量以定量形式收集资料,以便为后续分析的资料转换留更大的余地。数据整合是将不同来源、不同格式的数据进行整合,使其具有一致的格式和结构,便于多源数据的综合分析和利用,如传染病发病数据、疫苗接种数据以及实验室检测数据的整合。
常见指标有发病率、罹患率等流行强度指标,以及重症率、住院率、病死率等疾病严重程度指标。在传染病监测资料分析过程中,应根据分析目的和数据资料类型选择恰当的指标和分析方法。
将分析结果运用于实践,指导疾病防控的实际工作。
统计描述是传染病监测数据分析中最基础也是最重要的分析手段。由于致病因子、人群特征以及自然、社会环境等多种因素综合作用的影响,传染病在不同时间、不同地区以及不同人群的流行强度不一,其流行特征通过传染病在时间、地区、人群的分布(三间分布)得以表现。因此,从时、空、人三方面对传染病流行特征进行全面、系统的展示,有助于认识疾病的分布规律。对于已知病因的疾病,三间分布是辅助判断和解释病因的依据。对于病因不明的疾病,三间分布是病因的外在表现,是形成病因假设的重要线索,是探索流行因素和制定防制对策的前提。
通过对时间分布的分析,可以识别出传染病的短期波动、季节性周期性波动和长期趋势。研究传染病的时间分布不仅可提供有关病因的重要线索,也可反映病因的动态变化,同时还有助于验证可疑的致病因素及其与该病的关系。
对传染病时间分布的分析主要是描述病例数随时间的变化情况,一般通过直方图、线图、半对数线图等进行图示法分析,对于季节性波动规律和长期趋势的分析也可开展相关的统计学检验。
季节性波动规律分析可用季节指数、集中度和圆形分布法。
季节指数计算多年来月度平均数和总平均数的比值来分析疾病的发病高峰季节。计算公式为:季节指数=月度平均数/总平均数。季节指数越大则该月份的发病数越多。表3-1展示了某市2016—2022年手足口病的报告发病数情况,总平均数为1 916.96例,各月平均数见表3-1“月平均”列,以此计算各月的季节指数。从表3-1可知,手足口病的高发月份为5—7月和10—11月。
表3-1 某市2016—2022年手足口病报告发病数季节指数计算表
续表
集中度计算各月发病数与全年总发病数之比来分析疾病发病的季节性特征强弱,计算公式见式3-1、式3-2、式3-3。
其中 R 为离散度。 r i 为第i月某病发病数与该病全年总发病数之比。 M 为集中度,取值范围为0~1, M >0.9表示该病有严格的季节性; M 在0.7~0.9之间,表示该病有很强的季节性; M 在0.5~0.7之间,表示该病有较强的季节性; M 在0.3~0.5之间,表示该病有一定的季节性; M <0.3表示该病无明显季节性。
圆形分布法的基本思想为将呈周期性趋势的数据用三角函数转化为线性数据进行分析。将一年365天转换为360°,每天相当于0.986 3°,每月相当于30°,以每月中间一天作为组中值折算成角度,即一月为15°,二月为45°,以此类推。圆形分布法的公式见式3-4至式3-9。
其中
f
i
为第i月某病发病数;
α
i
为第i月对应的角度;γ为集中趋势,取值范围为0~1,越接近1,则表示该病发病越集中在某一区间;
为平均角,
S
为其标准差,对
的检验可采用 Rayleigh’s检验,统计量为
Z
值 =∑
f
i
γ
2
。当
Z
>
Z
0.05
时,
P
<0.05,表示有集中于平均角的倾向。若存在平均角,则可以根据
反推其对应的发病高峰日期。
表3-2为某市2015年细菌性痢疾按月发病数。圆形分布结果得出
Z
=32.39>
Z
0.05
=2.995 7,
P
<0.05,说明总体平均角存在,该疾病发病有季节性。
,
,推算出
,转换成时间为7月23日,即为发病高峰日。
,
,转换成时间可得发病高峰期为4月21日—10月19日。
表3-2 某市2015年细菌性痢疾月平均发病情况
传染病的长期趋势分析可采用Cox-Stuart检验。Cox-Stuart检验是一种非参数方法,其基本思想是:若时间序列存在上升趋势,则序列中后面的数据倾向于增大;若存在下降趋势,则序列中后面的数据倾向于减小。检验方法如下:
对于有 N 个数据的时间序列 X , X ={ x 1 , x 2 ,…, x N },取 x i 和 x i+c 组成一些数据对,共生成 c 对数据,为( x 1 , x 1+c ),( x 2 , x 2+c ),…,其中:当 N 为偶数时, c = N /2;当 N 为奇数,则 c =( N +1)/2,数据对共有 c -1对,序列最中间的数据舍去。
计算每一对数据两个数之差,若 x i > x i+c ,记为“+”;若 x i < x i+c ,记为“-”;差值为 0 时不计数。分别计算“+”和“-”的个数,分别记为 S +和 S -。当 S +的数目多,即正号太多时有下降趋势,否则,有增长趋势。对应于不同的假设,选用的统计量也不同,具体见表3-3。表3-3中前两种为单侧检验,第三种为双侧检验。在序列无趋势的零假设下, S +和 S -均服从 P =0.5的二项分布 B ( n ,0.5),可查“ P =0.5的二项分布界值表”。据此确定检验的拒绝域。
表3-3 三种不同的假设及应选用的统计量
注:需要说明的是,当使用统计量min( S +, S -)时,应根据水准α/2来计算拒绝域。
可用发病数或发病率来表示不同地区传染病发病水平的差异,分析气候、地理、经济、文化等影响因素,确定防治的重点地区。如比较我国南北地区布鲁氏菌病的发病率水平,发现内蒙古、新疆、黑龙江、宁夏等北部省份发病率较高,呈现北方省份高发、南方省份散发的疫情特点;受气候、蚊媒密度以及人口流动因素影响,本地登革热暴发疫情在我国东南沿海省份发生较多,其发病率远高于其他地区。
空间聚集性检验可以检验疾病的时空分布是否随机,并探测疾病高发地区。常用的聚集性探测检验方法有Kulldorff空间扫描统计量方法、Besag-Newell方法、Turnbull方法等。Kulldorf f空间扫描统计量由Martin Kulldorf f教授提出,是一种基于似然比检验的探测空间聚集性的统计方法,其基本思想为在地图上放置一个圆形扫描窗口,并在地图上移动,扫描窗口半径从0逐渐递增到某一设定的上限,从而产生无数个不同半径的窗口,计算每个窗口的内外似然值,似然值越大,越不可能是随机造成的聚集区域。
按人群特征进行流行病学分析的目的是发现与传染病有关的一些人群特征,有助于提出与传染源、传播途径、易感人群有关的假设。分析的人群特征主要包括:不同人口学特征的病例分布,如年龄、性别;不同社会经济状况的病例分布,如职业、受教育程度、经济收入等;不同免疫接种史的病例分布。在比较不同人群的疾病分布时,应尽量选择发病率指标进行描述,必要时还应对发病率进行不同人群特征标化处理。
图3-1为2022年某地痢疾分年龄组发病率情况,可见痢疾在10岁以下儿童高发,其中0~4岁儿童发病率最高,尤其是0岁和1岁儿童。随着年龄增加,发病率呈波动下降趋势,成年人的发病率维持在较低水平,但85岁及以上老年人的发病率较高。
图3-1 2022年某地痢疾分年龄组发病率
在流行病学研究和疾病防控实践中,如果仅对疾病人群、地区和时间分布的某一个方面进行分析,无法了解疾病流行状况的全貌。因此,需要将三者结合考虑,开展综合描述和分析,获取有关病因线索,确定流行因素,进而为制定防控对策提供科学依据。
如图3-2所示,在传染病暴发识别中,通常是在报告病例的时间分布分析中发现病例数的短期波动,进一步分析报告病例的三间分布,全面了解疾病流行特征,确定暴发原因,提出防控措施建议。
图3-2 传染病暴发识别
图3-3综合描述了一起流感疫情的时间与职业分布特征。左图为某地2009—2010年甲型H1N1流感的流行曲线图,右图为分学生和其他职业人群的流行曲线。从图中可以看出,该地甲型H1N1流感的流行有两个高峰,其中9月至10月初的小高峰主要由学生造成,推断该高峰的进展与9月学校陆续开学有关,而高峰的下降可能归因于国庆长假。同时,还可以看出,前期甲型H1N1流感病例以学生为主,其他职业人群上升缓慢,而后期其他职业人群所占比重较大,说明疫情逐渐由学校向社区扩散。
图3-3 某地2009—2010年甲型H1N1流感分职业发病时间分布
对分析结果进行恰当的图表展示和文字解释,有助于监测信息的有效传达。以下介绍传染病三间分布结果的展示方法。
流行曲线通常采用直方图绘制,在传染病暴发调查中应用较多。流行曲线的绘制应遵循以下原则:①横坐标为时间间隔,纵坐标为病例数,每个间隔中的直条表示该间隔期间的病例数。②相邻直条之间没有间隙。③时间间隔为半个潜伏期/潜隐期或更短。随着病例数量的增加,进一步减小时间间隔。④在事件前和事件结束之后,横坐标应留白1~2个潜伏期;如果暴发尚未结束,横坐标不延后。⑤使用单独、等比例的流行曲线来指示不同的群体。不要在同一图表中将不同组的列相互堆叠。⑥使用重叠的折线图、标签、标记和参考线来指示可疑的暴露、干预、特殊情况或其他关键特征。
流行曲线可以显示传染病暴发程度、暴发所处阶段,强调异常值,显示传播模式,还可以帮助确定潜伏期或暴露期,在传染病暴发调查中起重要作用。图3-4展示了某学校一起传染病暴发疫情的流行曲线,可见疫情暴发前有一段时间的降雨,首发病例于11月15日发病,发病高峰在11月底至12月初,当开展饮水消毒后,发病数快速下降。
图3-4 某学校一起暴发疫情流行曲线
为反映某种传染病随时间变化的长期趋势或季节趋势,可选用线图,短期内暴发疫情可选用直方图。X轴应具有相同的时间宽度,可根据分析目的选择不同的时间单位,如天、周、月、年等。描述传染病短期内变化时,可选用天作为单位;展示疾病流行的季节分布特征时,可选用周或月作为单位(图3-5);了解疾病的长期趋势,分析可能的原因和影响因素时,可选用年作为单位(图3-6)。
图3-5 1955年四省份流行性乙型脑炎季节分布
图3-6 1999—2021年某省乙肝流行趋势
根据病例的感染时间、发病时间、诊断时间、死亡时间等时间信息进行汇总整理,绘制病例时间分布表。病例时间分布表的优势在于可以清晰展示每个时间点的具体数值,但不如流行曲线直观,在数据展示中应用较少,一般在数据的准备和整理阶段使用。
采用半对数线图描述传染病病例数随时间变化的快慢,可直观地比较两种或更多疾病的上升或下降趋势。其与普通线图的区别是纵轴为对数尺度。图3-7展示了某地1950—1966年伤寒和结核病的死亡率变化情况,普通线图显示结核病死亡率的折线下降幅度大,但半对数线图显示伤寒死亡率的波动反而更大,下降趋势更为明显。
图3-7 某地1950—1966年伤寒和结核病的死亡率变化情况
流行病学地图把疾病的发病数或发病率用地图的形式直观地呈现出来,对于展示疾病的空间分布具有重要意义。流行病学地图能够直观地反映病例涉及的地区范围,有助于建立有关暴露地点的假设。在公共卫生领域,根据疾病的发病率或患病率资料绘制地图由来已久。1854年,伦敦宽街暴发霍乱,John Snow通过流行病学调查和分析,绘制了病例的地址地图,发现几乎所有病例都发生在宽街水井不远的地方,因此提出霍乱暴发与宽街的水井有密切关系,后续的研究进一步证实了这一假说。最终水井被有效处置后,霍乱得到了控制。
用点的密度来表示疾病发病人数的多少,可以确切标记出病例居住或工作场所的具体位置,呈现各病例之间的位置关系和病例与背景(河流、公路、高山等)之间的位置关系。但点图无法呈现人口数的情况,即无法显示发病率,因此无法判断病例多的原因。
图3-8为某村一起诺如病毒暴发疫情的病例家庭分布图,图中用圆点标出了所有病例的家庭住址,用圆点的大小表示家庭中感染人数的多少,从图中可以看到,所有病例在村庄中的分布位置,比较容易地将疾病的发生与河流联系起来。
又叫面积图,用不同的颜色及深浅程度表示疾病的发病数、发病率或死亡率等,一般颜色越深,表明相应的指标越高。但片图无法显示病例的具体位置,地图的其他背景信息将被掩盖,且无法显示同一区域内部的差别。
在绘制地区分布图时需要注意:①地图的行政区划要完整,辖区内的任何区域都不能遗漏;②要有比例尺,用以表明各病例之间的距离和疾病分布范围的大小;③要有图例,用以说明每个点表示的病例数或所有颜色代表的发病数或发病率范围;④要有指北针,用以表示地图的东西南北;⑤制图应美观,制作片图时,尽量以一种色系作为基底色,用颜色的深浅程度来描述发病数或发病率的高低,切忌使用多种不同色系的颜色制图。
图3-8 某村诺如病毒感染病例的家庭分布图
一般使用发病率或罹患率等指标描述传染病在不同人群中的分布,包括年龄、性别、民族或其他从属关系、职业、收入、婚姻状况、基础疾病以及其他特征。在暴发调查中,年龄和性别通常是需要具体描述的变量,其他变量取决于具体情形和暴发调查环境。有时无法获得关于病例之间共同点的信息,只有开展进一步调查才能得到。
在学校传染病暴发疫情调查中,往往用年级罹患率替代年龄组罹患率,更能发现病例之间的联系以及潜在的暴露因素。表3-4展示了某学校某次急性胃肠炎暴发疫情中病例的年级分布情况,很容易发现病例仅出现在5~9年级学生中,这一信息提示了5~9年级学生与1~4年级学生可能存在某些不同之处。后经调查发现,5~9年级学生的饮用水主要为桶装水,而1~4年级不使用桶装水,提示饮用桶装水可能为危险因素。
表3-4 某学校急性胃肠炎病例年级分布
图3-9展示了2021年某省分年龄、性别手足口病发病率情况。由于以5岁为间隔的年龄组作图时无法反映低龄幼儿的发病率波动,故另外绘制10岁以下以1岁为间隔的年龄组发病率图。从图中可看出,1~4岁低龄幼儿发病率较高,5岁以后发病率下降明显,男性幼儿发病率高于女性幼儿,男女发病年龄分布一致。
图3-9 2021年某省分年龄、性别手足口病发病率
描述如职业、民族等分类变量的人群分布时,适合采用条图。纵向条图和横向条图均可使用,但若统计类别较多或数据分类的名称过长时,使用横向条图更符合阅读习惯。图3-10展示了某传染病的职业分布情况。
图3-10 某传染病职业分布情况
开展监测资料分析时,需要对数据来源及其质量开展充分评估,引起某种疾病异常变化的因素是多方面的,包括漏报、瞒报、迟报、诊断标准的改变、政策的导向以及真实变化等,需要数据分析人员深入了解有关疾病的各种情况,对可能导致异常的原因进行尽量全面的评估,排除外在虚假因素的干扰,真实掌握疾病的变化规律,提出措施建议。
开展监测资料分析时,尽量避免以“比”(构成比)代“率”问题,应使用“率”来表述某种疾病的发病水平。如表3-5所示,A地区的病毒性肝炎发病数最少,但受其人口基数影响,其发病率实际上是最高的。
表3-5 病毒性肝炎地区分布情况
开展监测资料分析时,需要对疾病特征、时间、地点和人群等要素进行综合分析,从大量分析结果中发现问题并查找原因。图3-11所示某县病毒性肝炎发病率随时间变化情况,在对病毒性肝炎分病种分析后,发现乙肝比上一年增加了6.8倍、未分型肝炎增加了653倍,其余病种则发病较为平稳,因此,可进一步从乙肝和未分型肝炎着手,查找可能的原因。
图3-11 某县2005—2006年病毒性肝炎发病率随时间变化情况
不同疾病在不同地区的流行程度不同,进行监测资料分析或制作预警线时,需要考虑某种疾病在当地的流行情况。假设A、B两个地区虽然报告了相同的病例数,但对于A地区,该疾病常年处于较低的发病基线水平(甚至罕见),则A地区的分析人员应对该问题引起足够的重视。
值得注意的是,使用历年基线数据制作预警线或建立预测模型时,需要将历年暴发疫情发生的病例数从基线数据中去除。
另外还需要注意,在全人群开展的具有普查性质的监测,不存在通过抽样从样本推断总体的问题,无须对率开展推断性统计学分析。