健康数据不仅具有个人数据的普遍特点,还有一些其他个人数据所不具有的特点。与其他行业数据比较,医疗行业数据既重要又特殊,不仅与人的健康、疾病和生命息息相关,而且具有更复杂的外部性 ,影响相关产业及国家安全。
健康数据尤其是医疗数据向来被视为敏感数据,几乎世界上所有国家和地区都对其进行保护。同时,该数据也是商业价值最大的数据之一,可以用于健康管理、健康保险产品开发,因此金融行业、就业市场也对该数据感兴趣。另外,除了包含患者隐私信息,医疗数据也包含了大量关于医院运转、诊疗方法、药物疗效等方面的信息。这些信息都很敏感,某些可能会涉及商业利益 ,如保险理赔、医疗纠纷处理等,如果对数据分析结果解释不严谨,也可能会引发争议,甚至导致法律纠纷。
健康数据有多种格式类型,如文本、数字、图片、视频、音频等。放射科的都是影像图片,而电子病历则主要包括文本和数字数据。电子健康记录包括结构化数据和非结构化数据,其中医嘱、影像等属于非结构化数据。健康数据收集技术的发展日新月异,可获得的健康数据将越来越多,不仅包括人们的身体机能和主观情绪,还能掌握人们的基因组,以及越来越多发生在人们身体内部的事情。例如,Proteus公司开发了一种智能药片,吞咽进入体内后,将巧妙地由人们自己的胃酸提供动力,检测并发送有关消化系统的实时数据。这些数据的采集和使用能大大改善人们的健康状况,但是如果被泄露出去,也会给患者带来很多困扰。
大部分健康数据有较高的专业性,需要专门的机构或者仪器,以及专业的操作人员才能完成采集工作,如CT扫描、拍摄X放射片,非专业人员及机构几乎无法完成此类数据采集工作。尽管目前很多医学检测技术的发展趋势是便携化、易操作,但高质量的检测数据仍然只有专业机构可以获取。
健康数据的处理也需要专业人员或者是具有专业知识的人员参与。第一,医疗健康数据中,包含了大量的医学用语。中华人民共和国国家标准《疾病分类与代码》(GB/T 14396—2016)中记载的疾病名称有32000余种,并且,随着科学和医学的发展,随着人们对自身认识的深化,这一标准及等效国际标准还在不断补充完善中。第二,医疗健康数据中,包含了大量非结构化数据,这些诊断、医嘱及影像资料,都需要有专业人士参与才可能正确地进行处理,并且进一步结构化。
健康数据的分析也需要依赖专业人员和专业知识。医疗健康数据是不同临床诊疗过程中的产物,临床诊疗本身极其复杂,所产生的数据之间关系复杂,也很容易受到各种因素的影响,致使某些数据带有偏倚性。 进一步地说,医院之间在很多方面是会有差别的,除了病人的个体特征和疾病程度,医院的诊断和治疗水平、医疗数据的记录和编码水平等也有所不同。在进行健康数据的分析时,忽视这些差异,就有可能导致错误结论。而这些错误结论一旦应用于临床诊治工作,就可能会对临床实践造成巨大损害。
即使在一家普通的专科医院,医疗数据也往往存储在多个地方或者多个信息系统,如门诊记录可能储存在电子病历系统中,X光片可能储存在放射科的设备专用系统中,药品目录可能存储在药房系统中。有些医疗设备的原数据只有其配套的软件可以识别,导出后的数据需要经过格式转换才能识别。因此,医院很难将原数据聚合到单个中央系统中。
一方面,人们的健康状况是一个动态的过程,随时在发生变化,过时的数据价值大打折扣。另一方面,医学一直在进步,一些疾病的诊断方式、方法、标准等更新很快。随着更多地了解身体的运作方式,人们对健康与疾病的衡量标准和方式在不断变化,因此,健康数据时效性很强,数据处理者和使用者都倾向于使用实时数据。