健康数据尤其是医疗数据生成以后大多储存在各个医疗机构的信息系统之中。如果要使用这些数据,就需要多个医疗机构之间的数据共享和交换。这样病人在A医院做完血检之后,到了B医院就能直接调用,无须再次抽血化验。如果要进一步进行数据挖掘,就需要在共享和交换的基础上进行数据整合,形成电子健康记录。这样患者所有的健康数据就通过某个标识符(如身份证号码)整合起来,从而对患者有更全面的了解,以便开展精准治疗。现有不少文献对于这些过程进行研究,得出了一些有价值的结论。
严格来说,健康信息交换和健康信息共享(Health Information Sharing)有区别:健康数据往往标准多样,健康信息交换提供的是经过了格式转换能使接收方直接使用的数据,健康信息共享则不包含数据格式转换的过程。两者经常一起使用,只有在特定场景下才区别使用。为了更好地跟踪和安全地分享患者的完整病史,越来越多的医疗保健机构正在参与健康信息交换或者共享。无论是远程医疗、人工智能的问诊,还是医院之间的转诊,共享是实现健康数据价值的一种重要手段。此外,其他的商业机构也会对健康数据感兴趣,如保险公司、健康管理机构等。与之相关的研究很多,有针锋相对的观点,也有折中性的观点。
该派学者认为健康数据的共享能使多方获利,如患者、医院、制药厂、保险公司等,虽然增加了患者的隐私风险,总体来说是利大于弊,应大力推广。 持这种观点的学者们讨论了信息共享的好处如何“超过”隐私风险,归纳如下。
(1)通过减少医疗错误来提高患者安全性;
(2)通过消除不必要的文书和流程来提高效率;
(3)为护理人员提供临床决策支持工具,以提供更有效的护理和治疗;
(4)消除冗余或不必要的医学检测;
(5)提高公共卫生监测和预测水平;
(6)让医疗保健消费者更为全面地了解他们自己的个人健康信息;
(7)改善医疗机构质量和绩效;
(8)降低与健康相关的成本。
在中国,健康医疗大数据共享、应用被赋予了深化医改、推进健康中国建设重要支撑的意义,国家层面上大力推行共享应用。
该派学者则认为,患者的隐私至上,为了保护隐私,共享可能带来的好处都不值得一提。 研究者讨论了健康数据共享的好处及其带来的风险。此外,还有以下问题阻止了数据共享的进程。
一是卫生信息交换标准不统一。从一个提供商到另一个提供商进行电子交换的信息必须遵守相同的标准才能在电子健康记录中进行读取和使用,从而允许互操作性。目前各个医院独自采购信息系统,不同的信息技术提供商采用了不同的标准,数据交换之时缺乏互操作性。
二是法律法规尚不明确。例如,美国各州关于健康数据的法规差异较大,而且近些年法律法规更新频繁,让医院和企业有些无所适从。 目前我国与健康数据相关的法律法规尚在探索阶段,数据的共享方面没有一个明确的界限,随时存在违法的风险。
三是难以准确匹配患者的健康记录。在交换健康信息时,很多国家和地区没有准确有效的方法来匹配患者的记录。很多医院对病人有自己的标识符,多个医院数据整合之时,难以判定各个标识符之间的匹配情况。一些医疗机构和利益相关者建议,应该有一个国家患者标识符,用于将患者与其记录进行匹配。 但是,美国HHS已经声明禁止实施国家患者标识符,并且援引了1999年的《综合和紧急补充拨款法》(Consolidated and Emergency Supplemental Appropriations Act)。该法禁止HHS为个人分配唯一的健康标识符。 目前中国医院大多以身份证为标识符,相对来说有利于数据整合。但是也有一些医院以自己医院的就诊卡号为标识符。除了医保数据库统一了标识符,区域健康信息平台的标识符统一还存在一些问题。
四是健康信息交换高昂成本的挑战。美国的医疗机构指出,较之于孤立的信息系统,健康信息交换相关的成本方面的挑战很大,这些成本包括与购买和实施电子健康记录系统相关的前期成本,参与州或地方健康信息交换组织的费用,以及交换某些供应商或健康信息交换组织收取的健康信息的每笔交易费用。 此外,必须进行额外投资,例如建立与电子信息交换组织等其他实体交换的接口。 这点我国也面临同样的问题。不同省区市的财政实力有差距,富裕的省区市能先行建设区域人口健康信息平台,而贫困的省区市建设进度大大落后。
有些人主张健康数据共享,有些人则反对共享,也有一些人认为应对二者进行平衡。 持此观点的人在平衡方式和程度上存在差异,总体上达成了一些共识:保证患者数据的匿名性,鼓励患者接受医疗机构的服务并支持科学研究, 在获得患者授权的前提下,支持公共部门为了公共利益收集和使用健康数据。
患者往往会在多个医院就诊,跨医院的数据整合是进行大数据分析的重要前提。很多国家和地区都面临着健康数据孤岛的困境,不仅仅是电子健康信息的交换,更高要求的数据整合成为大势所趋。
医疗服务的质量与数据整合有很大的相关性。 医生和患者之间的信任关系十分重要,这样才能保证数据的有效整合。 而影响信任的主要因素是患者对医疗机构或者医生的熟悉程度及对整合健康信息的动机的理解程度。这些都是患者用来确定信任的线索。因此,向病人详细介绍数据整合的目的、用途可能是需要考虑的重要因素。
日本的一项研究指出,医疗保健专业人员解决与电子健康记录传播相关的信息隐私问题,需要一个全国性的隐私框架。医疗机构必须向患者提供详细信息,说明他们的电子健康记录将被如何处理、披露给谁,以及他们的电子健康记录将在何种程度上被使用。 在欧盟的《一般数据保护法》规定,医疗保健组织必须适当地征得患者的同意才能处理他们的电子健康记录。除此之外,还应明确说明如何收集电子健康记录,如何传播电子健康记录以及谁将在特定过程中访问电子健康记录。通过向患者详细解释这些情况,可以减少患者对其隐私状态的担忧。
很多国家和地区为健康数据整合投入了大量的资源,如英格兰的健康和社会医疗信息中心(Health and Social Care Information Centre,HSCIC)将公共医疗机构和家庭医生的数据整合进一个国家级的数据库。 他们的数据包括英国国家医疗服务体系(National Health Service,NHS)及社会护理机构收集的信息,范围从个体患者的数据,到医院信息系统的数据及从事健康和社会护理人员的数据。HSCIC致力于实现全科医生和医院之间关于患者治疗的信息共享,并将重要数据输送到正确的位置,用于改善健康和护理系统。HSCIC使用NHS收集的数据来帮助实现以下目标:观察可能存在的问题及其趋势,检测传染病的暴发,进行医学研究,在国家或地方层面规划需要哪种类型的护理,制定政策,确定哪种治疗方法最有效,创建奖励最佳实践的支付系统。此外,德国发布了医疗信息计划(Medical Informatics Initiative),旨在通过信息技术的解决方案创新来提高医学研究和病人护理水平。
2010年,卫生部发布了《电子病历基本规范(试行)》。该规范发布后,信息技术服务企业研发出了成千上万的电子病历系统。 有些地方政府探索基于云存储信息平台的电子病历数据整合,希望能提高诊疗准确性,增加社区医院治疗水平,并降低或者医疗支出。 有学者指出,目前中国的健康数据整合最大的问题在于缺乏统一的信息标准,安全保障不健全,缺乏资金,缺乏人才队伍;建议建立统一的标准体系,加强安全保障,增加信息化投入及加强人员的培训。 近年来,人才队伍建设也提上了日程,如北京市发布的《区卫生健康信息化建设指南(2019版)》,就建议各区健康委信息中心统计与信息技术人员不少于10人。
目前,关注健康数据价值的公共部门、社会组织和企业都在研发各种技术来确保大型医疗保健数据的安全性和隐私性。最广泛使用的技术有以下几种。
在医疗保健系统中,医疗机构的医疗保健信息和消费者身份都应在每次访问的入口处进行验证。认证对于信息系统安全至关重要,能保护对组织网络的合规访问,保护用户的身份,并确保用户确实是系统许可的人。信息认证可能带来特殊问题,尤其是中间人攻击(Man-in-the-Middle Attack)。大多数加密协议都包含某种形式的端点身份验证,专门用于防止中间人攻击,为通过网络进行通信提供安全性。多种版本的加密协议广泛用于网页浏览、电子邮件、互联网传真、即时消息和网络电话等应用。 通过复杂的算法确保数据安全性并管理原始数据和复制数据之间的关系,只允许授权人员读取或写入关键数据。
加密是防止未经授权访问敏感数据的有效手段。其解决方案可在整个生命周期内保护和维护数据的所有权——从数据中心到端点(包括医生、临床医生和管理员使用的移动设备)和云端。加密有助于避免遭受诸如数据包嗅探和存储设备被盗等攻击。医疗保健组织或提供商必须确保加密方案既有效又易于患者和医疗保健专业人员使用,并且可以轻松扩展以包含新的电子健康记录。此外,应尽量减少各方持有的密钥数量。
屏蔽是指用无法识别的值替换敏感数据元素。它不是真正的加密技术,因此无法从屏蔽值返回原始值。它使用一种去除数据集或屏蔽个人标识符(如姓名、身份证号码)以及概括准标识符(如出生日期和邮政编码)的策略。因此,数据屏蔽是实时数据匿名化的最流行方法之一。K-anonymity方法首先由Swaney和Samrati提出, 以防止身份披露,但未能防止属性泄露。有学者改进了该方法, 可以防止身份和属性泄露。
其他匿名方法包括向数据添加噪声,即在数据中添加干扰性的数据等。这些方法存在难以对高维数据集进行匿名化的问题。 该技术的一个显著优点是可以降低保护大数据部署的成本。当安全数据从安全源迁移到平台时,屏蔽技术减少了对数据应用进行安全控制的需要。
一旦经过身份验证,用户就可以进入信息系统,但他们的访问权仍将受访问控制策略的约束,该访问控制策略通常基于患者或可信第三方的授权。这是一种强大而灵活的机制,可以为用户授予权限。它提供了复杂的授权控制,以确保用户只能执行他们拥有权限的活动,如数据访问、作业提交、群集管理等。目前,基于角色的访问控制和基于属性的访问控制是电子健康记录最受欢迎的模型。 两者在医疗系统中单独使用时已显示出一些局限性。为了满足细粒度访问控制以及安全性和隐私保护的要求,有学者建议将该技术与其他安全技术,如加密和访问控制方法结合使用。
安全监控和审计是按时间顺序记录医疗保健系统的用户活动,以侦查各种可能的入侵活动,如维护每次访问和修改数据的日志。这两种方式用于衡量和确保医疗保健系统的安全性。 大数据网络安全系统应该快速发现异常并从异构数据中识别正确的警报。因此,有人提出了一个大数据安全事件监测系统模型,它由四个模块组成:数据收集、集成、分析和解释。 数据收集包括安全和网络设备日志、事件信息。数据集成过程通过数据过滤和分类来执行。在数据分析模块中,确定相关性和关联规则以捕获事件。最后,数据解释为知识数据库提供视觉和统计输出,从而做出决策,预测网络行为和响应事件。
尽管社会各界对健康大数据前景十分看好,但健康行业仍处于采用大数据分析的初期阶段。健康数据使用面临着多种挑战。
首先,缺乏清晰的战略。面对如此大量的可用数据,人们有些茫然失措,缺乏使用哪些数据及用于何种目的的知识。 这种战略层面的挑战往往需要跨学科、跨领域的人士共同研究,才能摸索到大致的努力方向,进而再沿着这些方向进行探索、建模和验证。
第二,收益有不确定性,而风险巨大。有学者指出,效益具有不确定性是导致相关组织不愿在医疗保健中使用大数据分析的主要原因。 再者,缺乏关于最佳算法和分析工具的知识,以及缺少训练有素的临床科学家和大数据管理者来分析数据,相关组织往往无法获得大数据分析所带来的红利。 同时,在大数据分析中,数据缺失和虚假关联等问题也增加了它的风险。 在没有人为监督的情况下处理信息可能导致错误的结论,这对于健康行业来说,很多时候就是人命关天的大事。
谷歌公司和美国疾控中心共同开发,并于2008年上线了“谷歌流感趋势”服务。该服务前期效果良好,2009年之后精准度降低,2015年正式下线。李晓洁和丛亚丽分析了这一过程,指出大数据分析的可靠性值得怀疑,个体隐私难以得到完全保护,存在被动共享、算法黑箱以及监管缺失等问题。
黄小龙等在调查了中国研究型医院学会医疗分会64家会员单位会员代表之后,认为医院管理者的不同性别、年龄、职称、岗位组间对于医院应用大数据没有影响,管理方式和“缺乏大数据专业化人才”会对医院大数据应用普及程度产生显著的负向影响关系。
技术挑战主要是指操作层面面临的挑战,主要有以下几个方面。
第一,从使用纸质记录转向使用分布式数据处理对信息技术基础设施提出了挑战。 现有的IT设备必须重新设计流程,这些重建和修改的工作量很庞大,也是影响医疗保健系统大数据应用的主要阻力。 此外,重建和修改还需要巨大的资金投入, 这使利用大数据技术实现变得更加困难。
第二,健康大数据整合的技术要求很高。健康大数据有多个数据来源,既有结构化数据,也有半结构化数据和非结构化数据。大量研究文献指出,健康大数据分析中的主要技术问题包括:健康数据分散在多个信息系统 、数据结构复杂多样 、数据标准化问题 、健康数据不准确或者在不同服务机构数据表述不一致 、网络带宽 、数据分析成本问题 等。
第三,缺乏具有医疗健康和数据分析复合能力的专业人才。健康大数据分析需要分析师有能力识别正确的数据和工具,分析健康相关数据并解释分析后获得的见解。 人才匮乏是健康大数据发展的关键瓶颈之一。
患者隐私和机密性在医疗保健中至关重要。为了获得洞见必须进行数据交换或共享,各利益相关方之间的数据共享可能增加了隐私泄露的风险。 数据收集及其共享中的隐私协议、用户知情同意等是医疗保健中大数据分析所面临的关键问题。 个人健康数据泄露等安全问题可能成为医疗保健领域的重大威胁。
为了克服这些挑战,现有文献中提出了一些策略,概括如下。
由于数据治理不善,医疗保健组织在IT投资中可能产生巨大的财务成本。 信息系统的重复建设与数据标准不统一的现象普遍存在。通过适当的数据治理,可以有效地整合医疗保健组织内部的数据资源,并挖掘数据价值。
信息共享和数据汇总可以解决互操作性问题,并有效利用大数据分析和预测能力。 建立信息共享的组织文化,促进多个部门之间进行信息协同,探索获取医疗保健业务价值的有效途径,将有助于利用大数据。
在信息安全方面投资不足,后期将会耗费更多的资源以弥补漏洞。应采用数据加密、数据源验证、访问控制和认证以及去标识等技术措施,以有效保障数据安全。
为了从大数据中提取有意义的见解和有价值的信息,医疗保健专业人员应接受大数据分析能力培训。这对医疗保健至关重要,因为对报告的错误解释可能会导致非常严重的后果。
利用云计算技术可以应对存储大量数据的挑战。这将使中小型医院和护理组织能够以较低的成本解决数据存储问题。