随着HIS系统的不断发展和完善,HIS数据对临床科研产生的重要价值逐步凸显,但怎样更好利用这些HIS数据是一个亟待解决的问题。HIS数据产生于临床实践,有信息系统的约束和完整性的验证,有良好的组织关系和存储结构,并且有专人管理和校对,可以说HIS数据是非常优质的临床大数据医药研究的数据来源。但是,我们还应该看到HIS数据有其不适合科研应用的特性,发现这些问题并解决它们是我们利用HIS数据进行临床研究的重要课题。
第一,HIS数据源具有多源异构性。在临床科研中,为了保证样本的数量或者地域分布的要求,需要把几家医院甚至全国各地多家医院的HIS数据集中起来,统一利用和分析。但是由于每一家的HIS可能由不同的HIS开发商设计和研发,其数据结构、存储格式、基础字典定义等都大不相同,这无疑会对数据的整合和使用带来极大的难度。即使使用同一家医院的HIS数据,由于任何一家医院的HIS可能由几十上百个信息系统模块组成,其数据包括有来自医护工作站系统的医嘱、治疗和用药等信息,有来自收费和账务管理系统的费用和医疗保险等信息,有来自临床检查检验系统的医学影像、生化指标和诊断等信息,有来自监护系统的生命指征等信息,以及手术麻醉系统的相关信息等。这些系统也可能来自不同厂商,数据并不能直接互通互用,尤其是在大部分医院数据整合和数据中心建设还不完善的条件下,直接利用这些数据进行科研更不可能。因此,需要将多源异构的数据通过数据融合的手段有机地整合到一起。
第二,HIS中存在大量半结构化和非结构化信息。临床日常诊疗活动产生的数据不仅包含由HIS系统生成的医嘱、用药、费用等结构化数据和由电子病历系统产生的医疗文书等半结构化数据,还包括由医务人员根据患者及家属口述或患者提供的诊疗历史记录、医务人员治疗过程中形成的文字记录,以及仪器检查或化验产生的数字、图片、影像、视频、声、光、电信号数据等非结构化数据,这些数据在临床科研中也有可能具有重要的使用价值。由于结构化、半结构化和非结构化数据混杂在一起,为数据的综合利用带来更大的困难。因此,需要将HIS产生的不同类型数据通过结构的标准化有机整合到一起。
第三,HIS中存在不规范的数据。数据的不规范包括数据缺失、错误、重复、不一致、记录标准不统一等多种情况,普遍存在于临床诊疗产生的各类医疗数据中。其产生原因主要有以下五点:一是由于临床数据涉及范围广、内容丰富、关系复杂,且临床患者症状多样。因此,在医疗过程中不同的医务工作者对同一医学名词的记录会因人而异,使得有同样医学含义的数据无法直接整合到一起。二是我国医学标准工作滞后,很多医学名词没有标准化的名称,即使存在相应的标准,也可能由于各个医院自身管理原因对这些标准化名称进行部分修改,造成医院之间的数据字典无法通用。三是相对于结构化的病历模版来说,医务人员更愿意采用自由文本的方式来录入临床数据,尤其是剪贴、粘贴、复制功能,而且医务人员在记录临床信息时,也存在自由发挥的问题,都会造成数据的不规范。四是临床信息系统完整性和一致性验证功能有限,而临床诊疗活动相对复杂,信息系统无法规范每一步的数据录入过程,也会造成数据的不规范。五是存在数据事后修改现象,在临床数据记录结束一段时间后,由于某些原因造成记录的数据不准确或有问题,需要进行修改,在这个过程中很可能造成数据的前后不一致。不规范数据的存在是一个客观现象,对不规范数据的处理是临床大数据研究中始终面临的一个重要课题。因此,需要将临床诊疗活动产生的不规范的数据通过数据清洗的手段有机整合到一起。
第四,HIS产生的数据也不能完全满足临床科研要求。因为临床诊疗和临床科研的目的不同,临床诊疗的数据录入和处理与临床科研的数据采集的要求也完全不同。临床治疗产生的是过程数据,以如何治疗患者为目的,而临床科研需要的是结果的统计数据,以寻找某种疾病或者用药的一般规律为目的。临床治疗时录入的数据不能完全满足临床研究的要求,而且由于医疗信息系统的设计和医疗技术的局限性,使HIS产生的信息无法涵盖临床科研需要的所有信息。因此,需要针对课题的不同需求,结合临床试验的内容并根据HIS数据的特点准确有效地加以利用。
第五,HIS数据可能涉及伦理、法律隐私和管理政策问题。由于医学伦理的要求、法律法规的遵从、患者的隐私保护和医院管理的规定等问题,HIS数据无论是在临床诊疗中生成时还是在临床科研中采集时都会受到一定的限制,有可能造成入库数据的不完整、不连贯或者不一致,使得HIS数据可利用性变差。因此,需要建立符合管理制度和要求的长效数据采集机制和符合伦理要求的数据加密手段。
综上所述,为了解决HIS数据在临床大数据研究中存在的问题,需要将采集到的HIS数据整合到一起,构建一个融合多源异构数据的、结构统一的、数据规范的、安全可靠的大型HIS数据仓库。