购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第五节
医学影像数据库建设的现状与挑战

数据产生于临床医疗、教学和科研,反过来又是支撑其发展的核心动力。近年来,AI发展迅速,数据是AI产品优劣的核心因素。影像学作为现代医学主要的诊断手段,贡献了70%的临床诊断信息,也占据了90%的数据量,而且正以每年30%以上的速度增长。与影像数据急剧增长和AI对数据核心需求不适应的是,医学影像数据库的建设非常滞后,短板很突出,必须引起同行们的高度重视,并加大建设力度,促进行业快速发展。

一、建设医学影像数据库的重要性

1.国家战略的需求

世界各国都非常重视医学影像数据库的建设,因为数据是生产力,数据涉及国家安全和标准制定,决定AI的发展。我国医学影像大数据和多中心研究整体落后于欧美,急需重视和加强建设力度,支撑行业发展。

2.临床发展的需求

基于临床数据库挖掘和分析,可以推动医疗精准化和智能化进程,提升科研和管理水平。首先,将离散数据整合与规范,可探索疾病关联关系,进行诊疗效果比较、疾病特征分析,加深对疾病的认识。其次,通过大量真实世界数据建模,可进行疾病基因、预后、治疗反应等预测,为精准诊疗提供依据。再次,通过对医学图像采集、重建、检出、诊断和报告环节的数据挖掘和分析,可建立医疗质量常态化量化监测评估体系。最后,通过科学的数据设计、收集、标注、随访、挖掘等环节,将建成高质量的多中心大样本高标准数据库,有望促进高水平研究成果的产生。

3.教育的需求

基于患者全信息的标准病例库建设,可用于青年医生影像检查、诊断和鉴别诊断的培训;基于图像数据标准化标注的数据库,可用于AI上下游相关人员的培训,模型研究的教育和学习。

4.研发的需求

现阶段,基于深度学习的AI在算法和算力仍没有真正实现突破以前,大样本、多样性、高标准且高标注的数据库是研发的关键。数据在医学影像AI产品的模型构建、模型迭代、模型训练、模型检测等全生命周期中都起着决定性的作用。

5.监管的需求

基于深度学习AI产品的敏感性、特异性和鲁棒性,需要封闭的高标准高标注数据检测才能给出权威结论。目前我国缺乏类似的第三方数据库,因此建设高标准高质量数据库,对于检测医学影像AI产品,支撑国家药品监督管理局对此类产品的有效监管,制定国家标准、形成相应规范都有着十分重要的意义。

二、中国医学影像数据库的现状

1.中国医院存在大量非标准化影像数据

我国是人口大国,每天都会有大量的影像数据产生。由于采集方式、机器型号、图像参数、图像格式等不统一,使影像数据虽然很大,但不完整、不标准、不统一,难以进行大数据加工、挖掘和使用。

2.缺少大样本、多样性、标准化、高标注数据库

我国现有医学影像数据库多是基于科研课题形成的,一是规模小,数据量多为千例级别,万例级别的很少;二是数据往往是单中心的,没有覆盖全国不同地区,不具备人口多样性,因此代表性较差;三是多数没有标注,出于科研提取的信息具有片面性,没有标注不能用于AI的研究;四是各自为战,缺少有效的组织和协调,数据长期处于静默闲置状态,未能充分发挥数据的价值。

3.缺少跨学科复合型数据人才,数据应用能力弱

医学影像数据库建设需要医学影像、计算机、云存储、AI、数据管理与挖掘等多学科复合型人才。目前,一是人才数量不足;二是人才各自为战,缺少整合;三是人才自学为主,缺乏培训;四是缺乏数据库建设、加工、分析和挖掘工具。因此,关于数据库的建设和应用整体能力较弱,缺乏统筹和整合,也成为建设和应用大型多中心数据库的瓶颈。这就需要医院、高校、研究机构、企业各方加强合作,重视人才培养、合作和应用,加快大数据人才队伍的形成。

4.医疗体系内壁垒难以打破,数据孤岛现象严重

医学影像数据互通共享是现代医疗的迫切需求,也是解决患者看病难的关键环节,更是限制AI发展的瓶颈问题。目前技术层面对于数据的存储、传输和共享并没有障碍,但由于数据所有权的争议,数据利益的不明确,数据拥有者对于形成多中心数据库心存疑虑,医疗机构之间的壁垒依然普遍存在且不易打破。因此国家应尽快健全相应法律法规,数据拥有者积极改变观念,使国家战略和患者利益最大化,尽快打破壁垒,加速互通共享,推动大型多中心数据库的建设,是所有医疗机构领导者需要认真考虑的问题。

5.医学影像数据相关伦理和规范有待健全

目前,国家卫生健康委员会已发布《国家健康医疗大数据标准、安全和服务管理办法(试行)》,从国家战略层面促进健康医疗大数据的规范管理和开发利用。伴随临床科研对数据的需求量持续增大,医疗大数据的合理规范使用是保障数据安全、保护患者隐私、维护医疗大数据行业秩序的重要内容。医学影像数据库相关的伦理和规范问题也需要尽快形成和完善。以确保医疗影像大数据能够合法、合规、合理、有序应用。

三、医学影像数据库建设的挑战

医学影像数据库建设是一个系统复杂的工程,过程艰辛漫长,技术要求高,影响环节多,需要高水平专家队伍和强有力的组织协调才能完成。

1.医学影像数据库建设是一个高技术门槛的领域

即使都是医学影像数据,不同部位和种类的数据从采集、清洗脱敏、分割标注、数据库建设、挖掘使用方法等均有很大差异和很大难度。其面对的困难既有共性的,也有特有的。

数据收集难:存在扫描环节技术不一致、数据溯源不清晰、数据伦理待明确、数据关联性复杂、动态数据周期长等挑战。

征象识别难:由于不同部位、不同疾病、不同成像方式放射征象差别巨大,因此对具体单病种数据库涉及的成像方式中图像的定义、识别、定量、分割、分类等,需要先形成共识并培训,以保证在识别环节容易达成一致。

数据标注难:在上面的基础上,需要统一标注共识;确定标签内容;选择合适的标注工具;制定标注质量标准;让每个标注可以溯源,然后再启动标注;对于同一病种的不同成像模态(如X线、CT、MRI),其图像处理和标注方法也不同。

形成易于挖掘的影像数据难:为保证数据可挖掘,需要数据清洗方法、流程、程度和类型规范统一;数据格式、标准、标注统一,才能确保挖掘的结果准确可用。

数据库质控管理难:一旦形成数据库后,需要形成完整的管理质控体系,确保数据安全,保持数据库动态更新,根据数据集控制等级的要求,确定不同的管理方式和要求,比如产品日常质控、性能独立测试、临床评价等都要求数据封闭。

2.医学影像数据库建设是一项高消耗的工作

每一例数据的产生、清洗、标注和入库,都需要患者、技师、护士、医生、工程师、数据专家等多环节系列团队成员完成,需要消耗大量人力、财力,建设周期长、投入大,因此需要建设者有充分的思想准备和奉献精神,也需要政府、企业等多方投入更多资源用于数据库建设,才能最终实现目标。

3.医学影像数据库建设需适应动态变化的需求

用于AI研发的数据库,根据预期具体用途比如模型训练、模型调优、质量控制、性能测试、临床评价等不同,相应的数据库建设和管理方法也不同。同一目的建库,随着时间的变化,其需求也会不断变化,需要组织者根据建库主体、目标、用途、模态等及时调整,才能保证所建数据库达到预期要求。

4.医学影像数据库是一个建设周期长、回报大而持久的工作

由于医学影像数据收集加工过程漫长,为了保证质量和多样性,短平快无法完成。建成一个符合要求的数据库少则数年,多则十年以上;但建库是一个持续积累的过程,可以上不封顶,持续增长,形成可持续可挖掘的成长性数据库非常重要;数据库越大,其价值越大,虽然不能快速回报,一旦建成则可以持续建设、持续挖掘、持续回报,广泛用于临床、教学、科研和AI等领域,满足国家战略需求,产生巨大的社会经济价值。

四、未来和期望

医学影像数据库的建设关系到国家战略资源的部署、行业快速健康的发展、医学影像学科的国际竞争力,也直接关系到患者未来能否享受到最先进的医疗技术的服务。国家及行业都在积极努力推动数据库建设,已经陆续有许多数据库相关的国家标准诞生,围绕着医学影像AI的发展已有示范性数据库及相关指南形成。近期国家卫生健康委能力建设和继续教育中心联合中华医学会放射学分会立项了13项单病种医学影像数据库项目,随着这批数据库逐步建成,必将形成支撑中国医学影像AI发展的良好生态,并将助力中国医学影像AI的发展领先于世界。

(刘士远) WX7ecEb2H6bkZqR2dGDH2wdsCw15U30Zxpv/CYWuUueDsAvaok0/L7wiRafKX3yz

点击中间区域
呼出菜单
上一章
目录
下一章
×