医学影像数据库的核心是对影像和临床数据进行统一管理,并提供开放式的数据访问服务,实现数据的共享利用,满足日益增长的医学影像人工智能研究需求。
医学影像数据库包含基于数值和文本类型的临床数据与影像报告数据,也包括以二进制类型为主的图像数据,针对不同类别的数据往往采用不同的数据存储方式。针对数值和文本类型的数据,往往采用关系数据库、文档数据库等存储技术,对医学影像相关的各种实体以及实体之间的各种联系进行完整的存储。对于以二进制类型为主的图像数据,往往采用影像文件库的存储技术。数据库中的记录与影像文件需建立一一对应的关系,互相独立的数据存储方式使得影像及其相关数据的使用和分析更加安全,而且对患者的隐私也起到了一定的保护作用。
在医学影像数据库建设的基础上,还需要进一步建设医学影像数据平台,提供数据收集、转换、处理、存储、浏览、分析与共享的全生命周期的多中心协作平台。平台可为参与数据库建设的多中心的人员提供基于云架构的随处可得的协作服务,提高数据库的建设效率;也为应用数据库开展人工智能研究的人员提供安全且强大的数据访问和分析服务,充分发挥数据库的应用价值。
数据库中数据的数量和质量决定了人工智能算法和模型的效果。传统上构建数据库往往需要依赖大量人工的数据采集过程,不但耗时耗力,且数据的数量和质量也很难保证。由于多年来医院信息化建设的发展,在医院内部已经建成医院信息系统(HIS)、电子病历(EMR)、影像存储与传输系统(PACS)、放射信息系统(RIS)等信息系统,积累了大量的原始医疗记录,使得自动化或半自动化的数据采集成为可能,大大提高了数据库构建的效率,因而基于医院信息系统的原始医疗记录进行数据库构建成为发展趋势。
从数据库所涵盖的数据范围和应用目标,可以把数据库构建方式分为两类。一类是汇集某个医疗机构或某个区域的全量医疗数据的数据库构建方式,它不面向特定的人工智能研究目标,而是为所有可能利用医疗数据的人工智能研究和应用提供支持;另一类是以特定疾病或主题的人工智能研究为目标,仅筛选符合该研究要求的患者数据,并面向特定疾病或主题的人工智能研究要求进行数据结构化和标准化处理。前者覆盖的患者病例数量会比较大,数据范围也会比较广,但由于应用目标不聚焦,往往数据的针对性不强,实际使用前尚需做进一步处理;后者虽然患者病例数量较少,适用性比较局限,但目标聚焦,相应的数据质量会比较高,数据利用产生的效果会比较明显。在实际环境中,多见结合两类数据库,形成一种分层次的数据库体系构建方式,也就是说先构建汇集全量医疗数据的基础数据库,再以此为基础构建专病或专题数据库,以满足面向不同人工智能研究和应用的需求。
无论是哪种数据库构建方式,都需要关注三个基本要素。其一是数据库的信息模型,它描述了数据库所管理的数据的范围及其结构,考虑到在不同数据库之间进行数据交换以及从医院信息系统中集成数据的需求,要求数据库的信息模型需符合标准,并需与医院信息系统所依从的数据标准兼容。其二是数据集成与标准化处理,要实现数据采集的自动或半自动化,实现与医院信息系统的数据集成是关键,而为使数据质量能满足人工智能研究的需求,数据的标准化处理也是必需的。其三是数据隐私保护,这是数据得以大规模共享和有效利用的前提,也是数据库建设必须考虑的重要问题。以下分别对这三个基本要素所涉及的相关技术进行简述,并对医学影像数据库的构建方法和质量评价进行介绍。
信息模型是数据库设计与构建的基础,它不仅描述了诊疗过程中的不同实体或概念,还描述了实体或概念间的相互关系。标准化的信息模型有助于对数据库所管理的数据进行重用与共享。随着医学影像人工智能技术的发展,仅仅影像数据已经无法满足应用需要,还需要描述影像标注或特征的结构化数据以及与影像关联的其他临床信息,形成以患者为中心、覆盖诊疗全过程的多模态、全维度数据,才能充分发挥医学影像人工智能技术的临床应用价值。由于临床与影像数据种类繁多,且随应用深入而动态扩展,因此,需要一种灵活可扩展,且能与医院信息系统中的数据兼容的标准化信息模型。
医疗领域是一个相对复杂的应用领域,医学信息涉及大量的领域知识。随着信息技术在医疗领域应用的不断深入,医学信息的种类和数量也在不断增加,传统的信息建模方法很难构建出能表达所有信息的模型。为此,不同的研究机构和标准组织多采用分层建模的方法来解决该问题,目前在领域内比较有影响力的医学信息模型有美国的Health Level 7 version 3(HL7 v3)、欧洲的openEHR以及观察性医疗结果合作组织的通用数据模型(observational medical outcomes partnership common data model,OMOP CDM)。以下以openEHR为例介绍如何基于分层建模方法构建标准化的信息模型。
openEHR是一个由openEHR国际基金会管理和维护的标准,其中的核心部分已被国际标准组织(ISO)采纳为ISO 13606标准,它通过两层信息建模方法来构建信息模型。底层的参考信息模型(reference model,RM)描述了记录的医疗信息所具备的通用属性,如数据类型、数据长度等,形成了稳定的数据库结构,已经被ISO采纳为国际标准。在参考信息模型的基础上,通过对医学概念的语义约束和组合,形成原型模型(archetype model,AM),包括原型和模板。原型是对基本医学概念的模型化表达,包括血压、医嘱、病史等;模板则是依据具体的信息需求对原型进行组装,如报告、表单等,是由多个原型(代表基本概念)组合而成。openEHR通过多层建模方法实现了建模过程中清晰的责任划分:软件开发技术人员负责基于参考信息模型进行软件编程和数据库构建,不用考虑其中涉及的临床知识;医学专家负责根据医学知识和临床需求进行原型设计,形成基本医学概念的信息模型标准;而具体的数据库设计人员则通过把原型进行组合形成最后的数据库。正是通过这种分层建模机制,不但使数据库构建后非常稳定,需求动态变化时仅需调整原型模型即可适应需求的发展和变化,而且使数据库在满足个性化研究需求的同时在基本医学概念层次实现标准化,从而有利于数据集成和共享。
openEHR建立了开放式临床知识管理平台(clinical knowledge manager,CKM),把已经达成专家共识的原型模型在互联网上公开,涵盖了包括结构化影像特征和临床数据的大量原子概念,可为影像数据库的模型设计提供标准参考。
医学影像数据库中的临床和影像数据来源于医院的信息系统,这些数据往往分散存储、结构化和标准化程度低,难以直接利用。要构建医学影像数据库,需要对影像和临床数据进行集成和标准化处理。
集成是指“把多个部分或元素整合在一起而形成一个整体”。由于医疗活动在时间和空间上的分布性,临床和影像数据产生于支持不同医疗业务环节的信息系统中,在影像数据库建设时,需要对分散于各个系统中不同角度的数据进行集成,由于这些医疗信息系统往往来源于不同厂商,具有异构性,给数据集成带来了挑战。一般来说解决该问题主要有三种途径:
第一种是通过制定或应用数据标准,并要求医疗信息系统遵循标准来实现数据集成,比如,HL7、DICOM等约定了医疗信息系统进行消息交换的数据格式,而国际疾病分类(ICD)、医学系统命名法——临床术语(SNOMED)和观测指标标识符逻辑命名与编码系统(LOINC)等标准则对临床术语的编码方式进行了规定。
第二种是当医疗信息系统的异构性无法避免时,从这些医疗信息系统的数据库中进行数据抽取和转换,其中ETL技术是其核心。ETL是数据抽取(extract)、转换(transform)、加载(load)的简写,它的功能是从数据源抽取出所需的数据,经过数据清洗和转换,最终按照预先定义好的信息模型,将数据加载到数据库中。
第三种是由通过一个中间系统与各类医疗信息系统进行数据集成。随着医院信息化的发展,医疗信息集成引擎或集成平台已经成为医院信息化的重要建设内容,它提供了一系列适配器来连接各类医疗信息系统,并通过在医疗信息系统的系统接口之间建立消息通道,实现数据集成。
高质量的临床数据是开展医学影像人工智能研究的基本条件。然而,由于数据采集工作复杂且持续时间较长,质量控制很难在各个环节都做到滴水不漏。对于质量无法达到使用要求的数据集,在使用前必须对数据进行清洗和处理,减少其中存在的数据问题,提升数据质量。数据清洗,又叫数据清理或数据净化,目的是检测数据中存在的错误和不一致,如数据缺失、重复数据、异常数据、逻辑错误和不一致数据等,剔除或者改正错误数据。数据处理,又叫数据的规范化处理或标准化处理,目的是把受医生输入习惯和知识背景影响的不规范数据,在确保语义一致的基础上,转换为结构化的数据并使之匹配标准术语编码。以影像报告为例,由于报告多以自然文本的形式存在,而且其中的临床术语通常受医生书写习惯的影响,表达多样化,因而需要先基于自然语言处理技术对数据进行结构化处理,并对结构化后的临床术语与标准化术语集进行语义匹配,与标准的术语编码建立映射,才能形成高质量的临床数据,为医学影像人工智能研究提供有效支撑。
多中心汇交的影像数据也需要进行标准化转换,才能纳入数据库中。DICOM标准是医学影像数据的事实标准,因而在影像数据库建设时,需要在DICOM标准的基础上对多中心汇交的影像数据进行标准化转换。
一方面尽可能减少冗余信息、有损信息和成像设备带来的影像异质性问题。冗余信息是指耦合在DICOM文件中的jpg、bmp、png、tiff和nii等格式的文件,应予以剔除。有损信息是指为显示缩略图而自动生成的低分辨率影像数据,这类数据是有损且冗余的,也应予以滤除。具有异质性问题的数据是指对原始影像进行三维重建等图像处理后得到的数据,由于大多数人工智能研究都是基于原始影像数据开展的,因而也不需要纳入数据库管理。
另一方面需要保证转换后的影像数据是标准统一的,方便后续数据分析时进行归一化处理,以减小多机构的数据方差扰动引起的信息冗余和模型训练不充分。不同机构因为拍摄设备、拍摄地点、拍摄人群的不一致,在影像上会有人眼难以分辨的差异,这些差异容易导致模型的训练不充分,进而使模型因泛化性不足而性能骤降。因而需要在影像数据入库前验证设备功率、拍摄参数等参数符合DICOM标准的要求,从而在后续分析时依据这些参数进行影像的归一化处理,提高模型的性能。
为了更好地实现医学影像数据库中数据的共享利用,患者数据的隐私保护是必须考虑的问题,以下分别从临床数据和影像数据两方面进行介绍。
临床数据不仅包括患者的健康状态及就诊的信息,还涉及大量患者的个体敏感信息,若管理不当,将引发个人隐私泄漏的社会问题,因此必须加强数据安全和对患者隐私进行保护。如果发生隐私数据泄露,有可能为患者带来推销、诈骗等一系列问题,影响患者的正常生活。因此,在使用患者信息进行临床研究之前,一定要对数据库中的个人标识和敏感信息进行匿名化处理,避免患者的隐私信息在使用过程中被泄露。
需匿名化处理的临床数据主要分结构化数据和非结构化数据两类。结构化数据在数据库中通过信息模型明确定义,能够直接获得数据的具体含义,包括能够在特定环境下单独识别个人信息主体的显式标识数据;能够通过结合其他数据识别个人信息主体的准标识数据;无法单独或结合其他数据来识别个人信息主体,但泄露极易导致个人名誉、身心健康受到损害的敏感标识数据。非结构化数据主要以自由文本的形式存在,患者的隐私信息不确定地分布在文本的字里行间,难以直接获取,处理难度很大。
结构化数据的匿名化算法包括抑制、加密、随机噪声、k匿名(k-anonymity)、T-Closeness和针对时间地理信息的匿名化算法。在算法设计选择时需要充分考虑数据隐私法律的要求,保证处理后的数据是合法的;也需要模拟常见的数据攻击方式进行测试,包括链式攻击、同质性攻击和背景知识攻击,保证处理后的数据是安全的;更需要考虑数据使用时的需求,保证处理后的数据是可用的。
文本类型非结构化数据的匿名化算法则主要使用以机器学习为主、模式匹配为辅的方式对文本进行命名实体识别及实体关系识别后,对其中的个人标识和敏感信息进行匿名化处理。
DICOM医学影像数据由影像描述数据和影像原始数据组成。影像描述数据包括患者和图像的识别信息,其中可能包括患者身份号(ID)、患者姓名、机构科室名称、机构地址等信息,因而需要对这些数据进行匿名化处理,可分为三个类别:
1.数据元素在DICOM文件中必须存在且需要具有有效值,该类数据多采用加密算法生成与原始值无关且无意义的标识符来替代。
2.数据元素在DICOM文件中是必须存在的,但可以包含“未知”值或长度为0的值,该类数据多统一标准化为长度为0的值。
3.数据元素非必须但存在暴露和追溯风险的,被统一抹除标签标识。
新型信息技术的应用可为医学影像数据库提供一个更加可靠的分布式数据安全共享体系。通过可搜索加密、同态加密等基于密码学的技术可对原始数据在本地进行加密,数据不需要解密即可直接进行分析计算,从而很好地实现了对原始数据的隐私保护;通过差分隐私等基于数据扰动的技术在数据统计时向每个输入数据点添加随机噪声,来减少数据的暴露风险;通过联邦学习等多方安全计算的方法,将计算任务分解为多个子任务于本地执行,再进行结果的合并,从而可以在数据不汇集的情况下对数据进行应用;通过区块链技术可在分布式环境下增强数据共享计算过程中的可审计性,从而进一步保障数据安全隐私。上述这些技术的联合使用,为分布式环境下的数据安全共享提供了更好的解决方案,必将促进和推动医学影像数据库的发展。
为保证数据库建设合法合规,符合要求,需要国家政策引导,加大财政投入,有关部委立项;政产学研用各方共同参与制定建设标准;依靠行业协会专业医生建设;建立第三方公共数据平台,方便数据使用共享;需要政产学研用通力合作,尤其是政府宏观调控,避免散、乱、差和重复建设。在具体建设的过程中,要注意把握好数据采集、清洗、标注和成库四个环节。
(1)组织机构和顶层设计:
要遴选专业性强、有影响力和组织能力的专家作为首席科学家,参与建库的专家要具有地区分布均衡性,每个数据库参与单位必须在10个以上,以保证数据的多样性;除了影像专家,还需要数据库架构设计专家,必要时需要算法与管理专家共同参与。在确定建库专家团队以后,需要对建库的具体用途和目标进行明确,并根据此目标制定具体方案。按照预期用途可分为模型训练、模型验证、性能独立测试、临床评价、产品质控等类型;按照数据来源可分为公有数据集、私有数据集;按照用户类型可分为自用数据集、他用数据集;按照访问管理方式可分为开放数据集、封闭数据集;按照更新形式可分为静态数据集和动态数据集。
(2)制定影像数据库构建标准及影像数据标注专家共识:
建库前准备越充分,开始建库后就越顺畅。其中最重要的是形成符合该库建库特点和要求的图像分割和标注专家共识以及建库专家共识。由于不同病种的部位、疾病特点和表现均有很大不同,虽然标注与数据库建设专家共识有基本要素的相似性,但具体内容差别很大,需要针对冠脉CT血管成像(CTA)、肺结节、骨龄、肺炎、肝肿瘤、脑肿瘤等具体疾病库分别请亚专业专家协商形成共识。
医学影像数据库的建库环节主要包括数据采集、清洗、标注和成库四个主要阶段,需要用统一规范的标准语言描述建库的各个环节。
(1)医学影像数据采集和清洗:
采集前,第一需要确定影像数据形态,包括数据模态(X线、CT、MRI、PET/CT、B超等)、数据格式(DICOM/JPG/AVI等)、数据量和存储方式。第二要确定临床适用场景,包括但不限于影像标注对象组成与比例、流行病学统计分布、受检者人群分布特征、应用场景等。第三要满足以下数据要求:①合规性,提供影像数据来源的合规性陈述,包括伦理审批、伦理豁免等信息;②隐私保护,用于保护受试者隐私的技术手段,包括但不限于影像数据脱敏、影像数据匿名化等清洗手段;③多样性,包括但不限于受检者人群、采集场所、采集设备、参数设置、临床数据采集人员资质、影像数据采集人员资质、采集方法、采集时间;④依从性,影像数据采集依据的法规、技术标准、临床规范、专家共识或其他参考文献;⑤数据入排,影像数据的入组和排除标准,并对数据的入排情况进行记录。
(2)医学影像数据标注:
图像采集和清洗结束后,对数据的标注是建库的核心环节。数据的标注必须在亚专业团队形成图像分割与标注共识以后,从多家三甲教学医院征调有5年以上工作经验的影像科医师,集中对共识内容和标注工具进行培训后方可进行标注工作,并对培训人员细分为标注、审核、仲裁、质控、管理等团队,方能保证标注工作保质保量进行。除了标注共识,影像数据的法规、技术标准、临床规范或其他参考文献也可作为参考,必要时应描述参考标准的验证方式。鉴于数据标注工具对数据标注质量和数据安全有重要影响,必须在标注前对标注工具进行严格遴选,并推荐能确保标注质量的标注工具,包括功能要求(数据操作、标注操作、业务组织等)、安全要求(网络安全、数据安全等)等。标注应当在专用标片环境下进行,为保证标注医师的准确性和一致性,背景亮度、温度、湿度等环境因素应当进行设计和控制;标注显示器应为满足DICOM标准、符合质控要求的医用专业灰度显示器,分辨率不低于2M像素。
(3)医学影像数据成库:
标注好的医学影像数据包含基于数值和文本类型的临床数据与影像报告数据,也包括基于二进制类型的图像数据,针对不同类别的数据往往采用不同的数据存储方式,包括单机存储、普通网络存储、云存储。针对数值和文本类型的数据,往往采用关系数据库、文档数据库等存储技术,对于二进制类型的图像数据,往往采用影像文件库的存储技术。数据库中的记录与影像文件需建立一一对应的关系,互相独立的数据存储方式使得影像及其相关数据的使用和分析更加安全。医学影像数据库和数据平台的核心是对集成的影像和临床数据进行统一管理,并提供数据收集、转换、处理、存储、浏览、分析与共享的全生命周期的多中心协作与开放式共享利用,满足日益增长的医学影像AI研究需求。
医学影像数据库的质量是其价值的关键,其符合性评价包括对说明文档的检查、数据质量特性的评价和数据风险管理文档三部分。
数据库说明文档是对数据库的系统描述,同时为质量评价提供依据,旨在帮助用户、监管方充分了解数据库,具体内容包括数据的分类、基本信息、应用场景、数据元属性、元数据属性、标识、质量特性描述等,该说明文档是否全面、清晰、准确,影响用户对数据库的信任度和使用。
数据库的质量特性包括准确性、完备性、唯一性、一致性、确实性、时效性、可访问性、依从性、保密性、效率、精度、可追溯性、可理解性、可用性、可移植性、可恢复性、代表性和数据库风险评价等,这些质量特性可分别下沉到数据库生存周期的不同阶段,包括数据采集、数据清洗、数据标注、数据访问与使用、过程管理与追溯等活动,从不同侧面反映数据库的质量水平。这些特性可通过抽样检验、操作检查、过程验证等方式进行检查。
数据库质量符合性评价还应包含对数据库风险管理文档的检查,客观上提醒数据集制造责任方关注对数据集偏倚风险的控制。从数据动态流动管理的角度,数据的角色也会发生变化,高管理等级数据集的数据退役后可流入低管理等级数据集,不允许数据从低管理等级流入高管理等级数据集。
(吕旭东 刘士远)