医疗大数据分析与应用最新章节_成生辉著

1.2 医疗大数据简介

医疗大数据是指在与人类健康相关的活动中产生的与生命健康和医疗有关的数据。根据健康活动的来源，医疗大数据可以分为临床大数据、健康大数据、生物大数据、运营大数据，这些数据在临床科研、公共卫生、行业治理、管理决策、惠民服务和产业发展等方面影响着整个医疗行业的变革。

❑ 临床大数据：临床医疗的主要目标是关注个人身体健康状况，临床大数据主要包括电子健康档案和生物医药学临床数据。

❑ 健康大数据：包括对个人健康产生影响的生活方式、环境和行为等方面的数据。

❑ 生物大数据：指从生物医学实验室、临床领域和公共卫生领域获得的基因组、转录组学、实验胚胎学、代生物大数据代谢组学等研究数据，这些数据有助于理解遗传标记与疾病之间的因果关系，将传统的“一刀切”治疗方式转变为基于基因组数据的定制治疗，目前已成为一种新兴的疾病预防和治疗手段。

❑ 运营大数据：指由各类医疗机构、社保中心、商业医疗保险机构、药企、药店等单位的运营所产生的数据如成本核算数据，医药、耗材、器械采购数据，药品研发数据，产品流通数据等。

医疗大数据的数据形式是多种多样的，数据类型是多模态的，数据产生的过程有长有短，数据的主体可以是多尺度的，数据间的相互作用可以是直接的也可以是间接的，数据的质量有高有低。下面我们逐一介绍。

在形式上，医疗数据有3类常见形式。第一类是分类数据，又称名义数据，是具有两个或多个类别的变量，但这些类别没有内在排序。比如病人的性别，过敏病史，有无使用某种药物，乳腺癌基因BRCA1/BRCA2是否表达等。这类数据的特点是没有内在排序，不论在时间上还是空间上，或者以其他方式度量，这类数据都没有排序。第二类是序列数据，这类数据后面的自变量是有明确的排序的，比如一个人过去3天里的血压，一个人过去10年的病史，一个科室里拥有初级、中级、高级职称的人数，一个医院每月就诊的人数等。序列数据除了有明确的排序以外，其自变量之间还可能有距离，而这个距离可以是等距的，也可以是不等距的。比如一个人过去3天里的血压，这里的自变量是每一天是等距的，虽然血压测量值不一定是等距的。一个医院每月就诊的人数在时间上是等距的，距离是一个月，虽然每月就诊的人数很可能是不等距的。一个不等距的数据的例子如下：如果要观察不同学历的病人是否按时服药，可以把病人的学历按小学、中学、大学进行划分，虽然我们可以认为小学的教育程度低于中学，中学的教育程度低于大学，但这两个教育程度上的差别是没有客观的距离的，所以这个数据是有排序的，但不是等距的。第三类是连续数据，这类数据不仅是有序的，而且数据的自变量也是连续的，比如病人的年龄、血压、体重、CT影像中像素代表的X光吸收密度等。

在模态上，医疗大数据往往是多模态的，这里的多模态是指数据的收集过程。比如一个肿瘤病人的数据是多模态的，不仅包括病人的人口统计学特征，还包括肿瘤内科的临床病历和化疗或免疫治疗的药物、影像科的CT或核磁共振图像、病理科的H&E染色图片、肿瘤外科的手术切除情况以及放射肿瘤科的放疗范围。因此这个人的病历是多模态的，其中既有基于文字的数据，也有基于非文字的影像数据。更进一步，具体到影像，其本身也是多模态的，比如核磁共振里的T1、T2、FLAIR，以及弥散和灌注成像等序列产生的影像，它们的模态是不同的。因此，医疗大数据的多模态性是经常存在的。但这并不是说所有的模态都要被用于某一个问题的研究，在很多情况下，一个或几个模态的数据对特定的研究来说是足够的。

在产生的时间上，医疗大数据的产生时间可长可短，从几天到几年都有可能，而这取决于具体的应用和临床问题。而且，时间的长短随着医疗技术的进步在不断变化。比如在乳腺癌的治疗方面，随着人们对乳腺癌认识的加深和新型药物的出现，病人的生存期越来越长。因此，如果从大数据的角度研究乳腺癌病人在治疗后的生存质量，数据产生时间就越来越长了。同理，如果研究乳腺癌病人在生存期内癌症发生转移的概率，则对病人进行随访的时间也相应地变长了。这个时间上的因素对于我们设计医疗大数据的研究方案是相当关键的，因为它决定了我们预估的所需时间和投入的资源。

医疗大数据的主体可以是多尺度的。这个尺度可以是人，如研究病人对新药的反应是否有效；可以是更小的尺度，如细胞，如研究不同基因表达的细胞的分裂与自噬，免疫细胞与神经细胞的相互作用；也可以是更大尺度，如一个医院的医疗状况和经营状况、一个地区的人群在某方面的健康或医疗上存在的问题等。

医疗大数据间的相互作用可以是直接的也可以是间接的。这些相互作用有些是我们期待的，如治疗糖尿病的药物对血糖的作用，这个作用是我们所预期的，也是直接的。有些相互作用则是间接的，如单一药物对某种疾病的控制，通常是我们所知道的，也是所预期的。但当病人使用两种或两种以上的药物时，它们对各自所针对疾病的控制是否与预期的一样，以及它们之间是不是有相互作用，这往往是我们所不知道的。揭示这种潜在的间接相互作用现在变得尤为重要，原因在于很多人同时使用超过一种药物，据其他国家统计，超过70岁的人同时平均服用7种药物，而这些药物会不会有相互作用目前仍不是很清楚。研究人员通过大数据分析发现，当病人服用某一种常见的抗抑郁药和一种常见的降血脂药时，这两种药同时使用会提升血糖的水平，而这是医生开出这两种药时所没有想到的。当我们从大数据的角度分析时，除了要寻找或验证我们期待的直接作用外，也不能忘记分析数据中可能存在的间接相互作用。

医疗大数据的质量有高有低。这表现在数据的一致性和受控性上。在某种情况下，如临床试药的数据分析中，数据的质量是会有保证的，如召集了足够的人群参加临床试药，从年龄、性别和其他人口统计学特征上匹配了用药组和对照组，对参加人员的检查是统一的，并且定期对参加的人员有详细的随访等。这样的数据收集保证了数据的质量。而在很多情况下，医疗大数据的收集超出我们的能力范围，如在回顾性研究中，无法确保数据的各种特性反映了相应人群的人口统计学和病因学，也很难保证历史数据没有丢失或错误。在这种情况下，合理的数据清洗是必要的。

医疗数据首先属于数据的一种，所以必定具备一般的数据特性：规模大、结构多样、增长快速、价值巨大。但是其作为医疗领域产生的数据也同样具备医疗性：多态性、不完整性、冗余性、时间性、隐私性。

❑ 多态性：医疗数据包括化验产生的纯数据，也包括体检产生的图像数据，如心电图等信号图谱、医生对患者的症状描述以及根据自己经验或者数据结果做出的判断等文字描述。另外，还有如心跳声、哭声、咳嗽声等声音资料。同时，现代医院还有各种动画数据（如胎动的影像等）。

❑ 不完整性：基于各种原因，有很多医学数据是不完整的，如医生的主观判断以及文字描述不全导致的不完整，患者治疗中断导致的不完整，患者描述不清导致的不完整等。

❑ 冗余性：医疗数据量巨大，每天会产生大量冗余数据，这将给数据分析的筛选带来很大困难。

❑ 时间性：大多医疗数据都具有时间性、持续性，如心电图、胎动四维图等均属于时间维度内的数据变化图谱。

❑ 隐私性：隐私性也是医疗数据的一个重要特性，同时是现在大部分医疗数据不愿对外开放的一个原因。很多医院的临床数据系统都是相对独立的局域网络，甚至不会对外联网。