脑卒中风险评估与预警体系最新章节_沈晓明著

二、医疗大数据的特点

医疗大数据的特点主要表现为大量的混杂偏倚、缺失和数据的准确性不足。基于医疗大数据的临床大数据研究不同于严格设计的临床试验，它要求最接近临床实际诊疗记录，而临床实际上患者往往身患数种疾病，用药也一般以多药联用的形式出现，更有患者心理、社会环节、自然气候环境等的影响，这些都会造成混杂偏倚。事务型系统是临床大数据研究重要的数据来源，而数据缺失是重大问题之一。数据缺失产生于多个方面。首先，事务和科研的考察指标不同。以医院信息系统为例，医院的医疗事务主要考察收治病人的规模，营业的收入，以及医疗行为的规范性等；而科研关注疾病的诊断治疗、药物的使用情况，以及治疗的结果。为保证科研的客观性和真实性，一般的科研都设计了严谨的结局指标，而这种指标往往很难在事务型数据中找到。其次，由于临床医生医疗事务繁忙，事务型系统设置的许多数据项目也会出现缺失。医生认为对于医疗事务不重要的项目、认为测试结果正常或常见的时候都可能会漏报。另外，一些连续型变量可能会被人为改为离散型或等级变量，如年龄写为“成人”。最后，数据重构和标准化也会导致某些项目缺失。临床大数据研究的事务型数据往往来自不同的数据系统，因此数据结构等方面会有较大差别，如果要合并分析，则需要构建统一的数据仓库，其中涉及数据的重构和标准化。数据项目不同的系统，在数据重构过程中，许多数据就会缺失。

前瞻性临床试验的数据采集一般都有严格的质量控制，比如双录双核、差异校验等。而基于医疗大数据的临床大数据研究中大量采用的回顾性数据在采集时则往往没有这方面的保障措施，因此其数据的准确性相对于前瞻性临床试验数据有很大不足。分析临床大数据研究数据时，时常会发现年龄数百岁、住院数十年的患者。另外，事务型系统的特点从设计上就导致了它在某些项目上的不准确性。比如医院信息系统的结局指标可以从治疗结局（痊愈、好转、无效、死亡）、实验室指标变化、住院时间长短、用药情况等近似地获知，然而这些近似的指标远远称不上准确，它们都是多种因素综合作用的结果，而且要么很不客观（如治疗结局），要么缺失严重（如实验室指标），要么与真正的结局间隔了好多环节（如住院时间长短或用药情况等）。

（一）偏倚和混杂的主要来源

临床大数据研究中，可能的偏倚和混杂包括以下几方面。

1.暴露风险窗口（exposure risk window）

暴露风险窗口的选择可以影响风险比较。在ADR研究中，暴露风险窗口构成每个处方的使用天数。当每个暴露风险窗口只覆盖本期间潜在超量风险时，为理想设计时机。与药品有关的风险时间取决于药物使用时间以及药物毒性反应发生和持续时间。如某种药物连续使用14天可能出现肝毒性或者肾毒性，而在开展临床大数据评价时观察时限超过14天则出现肝毒性或肾毒性的概率变大，因此处方风险窗口的选择，可以影响暴露风险的估计。风险窗口应被验证，或应进行敏感性分析。

2.未亡时间偏倚（immortal time bias）

流行病学中的“未亡时间”是指特定期间未见死亡（或决定终结随访的结局）的队列随访时间。当进入队列和首次出现暴露的日期之间的间期被错误分类或简单地被排除且在分析中未考虑时，未亡时间偏倚就会发生。如评价某种治疗措施的临床疗效，这种治疗措施对患者的真实远期疗效可能不尽如人意，但患者进入队列开始观察到使用这种治疗措施进行治疗期间相隔了一段时间，而这段时间在评价治疗措施时被忽略，那么可能夸大这种治疗措施的远期疗效，这种结果可能由于未亡时间偏倚所造成。因此，对于获得出乎意料的有益效果的观察性研究，应警惕这种偏倚的存在。在利用电子数据库开展评价药物效益的观察性研究时，必须进行正确的设计和分析，以避免未亡时间偏倚。

3.易感人群偏倚（depletion of susceptibles）

易感人群偏倚是指坚持用药的人群具有高耐受性，而那些容易遭受AE的患者则选择处于危险人群之外的效应。如开展药物安全性评价研究，纳入的患者常常能够坚持服药以保证随访的顺利完成，但是这类患者由于经常服药，对药物具有很好的耐受性，不易出现ADR。反之，某些患者可能是由于易出现ADR而较少服用药物，但这类患者可能被认为难以实现随访而没有被纳入研究中，因此，造成高估药物的安全性。既往使用某药应被作为使用该药发生某事件相关联的非实验风险评估条件下的潜在风险调节。

4.适应证混杂因素（confounding by indication）

适应证混杂因素是指如果特定的高风险或不良预后是实施干预的适应证，那么现有结局参数外部的决定因素就成为一种混杂。这意味着病例组和对照组之间的医疗差异可能部分源于干预适应证的差异，如特定健康问题存在的危险因素。潜在的适应证混杂可以通过适当的分析方法处理，其中包括分离不同时间用药的疗效、不可测混杂因素的敏感分析、工具变量（instrumental variable，IV）和G-估计（G-estimation）。

5.药物/暴露原始反应偏倚（protopathic bias）

药物/暴露原始反应偏倚是指使用某种药物（暴露）治疗某种疾病（结局）时，发生了某种新诊断症状，并将其判断为该药所导致的某种原始反应。例如，使用镇痛药治疗由一个未确诊的肿瘤引起的疼痛，可能会导致镇痛药引发肿瘤的错误结论。因此，药物/暴露原始反应偏倚反映了原因和效应的倒置。

6.不可测的混杂因素

大型医疗数据库经常被用来分析处方药和生物制剂非预期的效果，其混杂因素的测量由于需要临床参数、生活方式或非处方用药方面的详细信息而无法完成，进而引起残余混杂偏倚。针对这种使用医疗数据库的药物流行病学研究中的残余混杂因素的分析，国外学者采用了较为系统的敏感性分析方法，认为敏感性分析和外部调整有助于研究者理解在流行病学数据库研究药物和生物制品中的影响因素。

（二）处理偏倚和混杂的方法

1.新用药者设计（new-user designs）

大多数观察性研究以纳入现行用药者（即在随访研究开始前已治疗一段时间的患者）为主，这种形式可能会导致两类偏倚。一是现行用药者是初期药物治疗的“幸存者”，如果风险随着时间推移变化，可能导致主要偏倚；二是药品使用者在进入研究时的协变量往往不可避免地受到药物本身的影响。新用药者设计有助于避免调整因果路径上不同因素时可能导致混杂的相关错误。

2.自身-对照设计病例-交叉研究（case-crossover studies）和病例-时间-对照研究（case-time-control studies）

对于研究短暂暴露-即时效应特别适合，且不易受到适应证混杂因素的影响。病例-交叉研究使用每个病例的暴露史作为自身对照，可以反映暴露与即时效应的时间关系。这种设计通过慢性适应证等稳定特性消除个体之间的混杂。病例-时间-对照设计是病例-交叉设计的一个更高层次的改良，它从传统对照组的暴露史数据来估计和调整处方时空变化中的偏倚。然而，如果未能很好地匹配，对照组可能会重新产生选择偏倚。在这种情况下，病例-病例-时间-对照（case-case-time-control）方法可能有所帮助。自身对照病例系列（self-controlled case series，SCCS）方法产生于研究短暂暴露（如疫苗）和AE之间的关联研究中。将每个病例给定的观测时间划分为对照期和风险期，风险期定义为暴露过程中或暴露后，然后比较在对照期和风险期的发病率。其优点是那些不随时间推移而变化的混杂因素（如遗传学、地理位置、社会经济状态）都是可控的，即使在高度暴露的人群中亦可进行风险评估。

3.疾病风险评分（disease risk scores，DRS）

控制大量混杂因素的方法之一是构建一个多变量混杂因素的综合评分，将潜在的混杂因素汇总为一个分值。其中一个例子是DRS，其估计在未暴露条件下疾病发生的概率，然后估计暴露与疾病之间的关联性，从而对单个协变量进行疾病风险评分的调整。如果结局是罕见的，DRS便较难估计。

4.倾向性评分（propensity score，PS）

药物流行病学研究中使用的数据库通常包括面向医疗服务提供者的处方用药记录，从中可以构建潜在混杂因素（药物暴露和协变量）的替代测量方法。逐日跟踪这些变量的变化往往是可行的。尽管这些信息是研究成功的关键，但其数量为统计分析带来了挑战。PS将大量可能的混杂因素综合成为一个单一的变量（得分），这和DRS类似。暴露倾向性评分（exposure propensity score，EPS）是指暴露条件概率（暴露于给定观察协变量的治疗措施下的概率）。在队列研究中，匹配或分层处理和比较受试者的EPS趋向于平衡所观察到的所有协变量。然而，与治疗方法随机分配不同的是，PS不能平衡未观测的协变量。除高维倾向性评分（high-dimensional propensity score，hd-PS）外，与传统的多变量模型相比，在研究者可识别的混杂因素调整方面，虽然在大多数情况下PS模型不具有任何优势，但仍然可能会获得一些益处。PS方法可能有助于探索治疗的决定因素，包括年龄、衰老和合并症，可以帮助识别与期望相反的治疗个体。PS分析原理的优势是在暴露不罕见而结局罕见的情况下，可以调整大量的协变量，这是药物安全性研究中经常遇到的情况。

5.工具变量（instrumental variable，IV）

IV方法是在70年前提出的，但最近才被应用于流行病学研究。其中IV校正法在很多情况下具有应用价值。即使IV假设有问题，校正仍然可以作为敏感性分析或外部调整的一部分。然而，当假设非常有说服力时，在实地试验和获得效度或信度数据的研究中，IV方法可以作为分析中一个完整部分。《安全性和有效性比较研究中的工具变量方法》是药物流行病学中IV分析的一个实用指南。IV分析的一个重要局限是弱工具（IV和暴露之间的微小联系），会降低统计效能和有偏IV估计。

6.G-估计

G-估计是一种类似于IV的方法，该方法主要评估随时间变化的治疗措施的联合效应。边际结构模型（marginal structural models，MSM）是G-估计的替代性方法。与G-估计相比，MSM方法具有两大优势，一是虽然对生存时间结局、连续变量结局和分类变量结局有用，Logistic G-估计在估计二分类结局治疗效果时却有诸多不便，除非结局是罕见的；二是MSM与标准模型类似，而G-估计不是。

除了上述方法，在研究设计时运用传统和高效的方法来处理随时间变化的变量，如评估时间变化的暴露窗口的NCCS应予以考虑。

临床大数据研究的最大优势在于它可以为真实临床环境下中医药干预措施（中药、针灸等）有效性和安全性提供更多的证据。设计严格的临床大数据研究，可以用来作为对RCT（特别是ERCT）研究的补充，去检验一种已经认为有效的中医药干预措施（中药、针灸等）在基于广泛人群真实医疗实践中的有效性和安全性，这正是中医药临床研究所迫切需要解决的重要问题。