购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第六节
国内外常见医学影像相关数据库介绍

医学影像是临床诊疗过程中最重要的手段之一,数据规模随着成像技术的发展和医院信息化水平的提升正在呈爆发式增长。海量的数据为人工智能的发展提供了前所未有的机遇,反过来,又在不断加速智能诊疗和精准医学的发展。鉴于此,如何对医学影像大数据进行规范化挖掘和高效利用成为近几年来医学影像人工智能领域内备受瞩目的焦点,全球各国纷纷加快大规模医学影像数据库建设的步伐。标准化、大样本、多尺度、多模态数据采集平台的建设对于疾病的机制解析、早期预警、精准诊疗意义重大,也成为前沿研究的基础和共识。下面我们将对国内外主要的医学影像相关的数据库进行简单介绍。

一、国际队列数据库

国际队列数据库见表2-6-1。

1.英国生物银行数据库

英国生物银行数据库(UK Biobank)是由英国政府自2004年发起的在全英国范围内采集年龄为40~69岁的老年人群健康信息的资源库。目前,该数据库招募人数已经超过50万,其数据采集内容全面,涵盖了被试的健康状况,生活方式,认知、心理测试,以及血压、体重、身体成分等测量指标。此外,还采集了被试的血液、尿液以及唾液等生物样本,为以后的代谢组学、蛋白组学等生物多组学检测创造了条件。UK Biobank还对10万多名被试进行了连续1周的手环数据采集,为基于客观的睡眠、节律和运动的测量及研究提供了基础。另外,UK Biobank计划采集10万人的影像数据,对被试的腹部、脑及心脏进行磁共振影像扫描、颈动脉超声扫描和心电图测量,目前已完成近5万人的数据采集。UK Biobank还提供了近50万人的全基因组序列和20万人的外显子序列数据,收录了患者住院数据、国家死亡和癌症登记等一系列健康数据。这些数据为多尺度整合多模态数据、从基因到环境层面进行大样本的中老年人脑健康及身心健康的研究提供了无限可能。

UK Biobank数据面向全世界的研究者申请和使用,研究者可以通过“访问管理系统”(AMS)进行注册申请。UK Biobank工作组将在注册提交后的约10个工作日内进行审核。在注册获得批准后,研究者在UK Biobank“访问管理系统”中填写申请表并签署材料转让协议(MTA)。在申请获批之后,研究者需要支付访问费用以及返回已签名的材料转让协议,随后UK Biobank将在数据准备完成后告知研究者数据下载链接。相关科研成果不需要署名UK Biobank团队成员,但使用UK Biobank数据发表出版物之前需要通知UK Biobank团队,且研究结果应在进入公共领域后6个月内或项目结束后12个月内返回UK Biobank。

表2-6-1 国际队列数据库

2.美国青少年脑认知发展数据库

青少年脑认知发展(adolescent brain cognitive development,ABCD)数据库是由NIH于2015年起资助的纵向随访队列数据库,该数据库囊括了与儿童脑发育和健康相关的基因、影像及行为等多种数据类型。该数据库采用纵向随访的实验设计,基线期纳入了近11 880例9~10岁的儿童数据,计划对其进行长达10年的纵向随访,记录从青春期到青年期的生物学和行为发展。ABCD的研究目的是明确童年经历对脑发育、社交、行为、学业、健康以及其他发育结局的影响。此外,ABCD数据库具有庞大的影像数据样本,有利于研究者追踪从童年到青春期的人脑功能与结构发育过程,进而确定影响或改变脑发育轨迹的生理和环境因素。总而言之,ABCD的研究结果将为家庭、学校负责人、校长和教师、卫生专业人员和决策者提供实用信息,促进儿童的健康、福祉和发展。

ABCD数据库面向全世界的研究者申请和使用,研究者通过在国家心理卫生研究院档案库(NDA)系统注册访问并提交《NDA数据使用请求》来获取数据。主要申请流程如下:①明确申请权限。首先需要明确所在机构(如复旦大学)是否是NIH认可机构,如不是,将无权申请数据。②创建账户。在NDA官网注册账户。③向ABCD数据库官方提供《NDA数据使用请求》,在申请获批后即可下载并使用数据。每份请求的内容主要是申请者及其所在研究机构授权官员共同签署的NDA数据使用说明。相关科研成果不需要署名ABCD团队成员,但是需要对ABCD团队及其资助者进行致谢。

3.全球多中心脑疾病队列ENIGMA联盟

全球多中心脑疾病队列ENIGMA联盟由约50个国家和地区的上百个参与单位组成,分为约50个子课题研究小组,旨在以脑影像和基因数据为基础,了解脑结构、功能和疾病。ENIGMA有着完善的合作模式:由研究小组拟定研究方案,讨论、修改后制定出统一的研究协议,最后由ENIGMA子课题小组负责人统筹协调各个参与单位,各单位根据研究协议完成各自的科研工作。目前,ENIGMA具有近5万被试的脑影像和基因数据,几乎包含所有常见的脑疾病,如精神分裂症、双相障碍、抑郁症、创伤后应激障碍、成瘾、帕金森病、卒中、强迫症、多动症、自闭症和癫痫等。此外,ENIGMA还有多个脑影像-基因分析的技术小组,比如弥散张量成像(DTI)连接组、脑电图(EEG)组、静息态功能磁共振成像(fMRI)组、海马分割小组等,这些小组为多尺度多模态的脑影像数据分析提供统一标准的处理范式和质量控制。ENIGMA从建立至今,已在脑疾病遗传影像机制的研究中取得了一系列重要的科研成果。

ENIGMA面向全世界的研究者申请和使用。研究者可在ENIGMA网站上联系各个疾病小组负责人来获取数据。ENIGMA采用的是类似荟萃分析的合作模式,即各个数据单位之间并不共享原始数据,而是由研究者提出某一研究课题,在小组负责人的统筹协调下,各个参与单位独立开展数据处理和分析工作,最后将分析结果交给子课题负责人,利用荟萃分析将各个单位的结果进行汇总分析。主要申请流程如下:①提交申请课题;②审核通过后发布研究方案;③等待各单位处理数据;④汇总结果并联合分析;⑤发布成果。

4.癌症图像档案

癌症图像档案(the cancer imaging archive,TCIA)是一个包含常见肿瘤(肺癌、乳腺癌、前列腺癌等)医学图像及相应临床信息(包括治疗方案、基因、病理等)的大规模公开数据库。TCIA收录了肿瘤相关的常见影像模态,如MRI、CT、PET、X线以及乳腺钼靶等。在TCIA中,“Collections”目录展示收录数据的内容,其中大部分内容被允许免费浏览、下载并用于商业、科学和教育领域,不需要注册和特殊许可,除极少数可能透露参与者隐私的数据外。如果研究者需要将数据上传至TCIA,首先需要在网站中下载表格,向TCIA提交申请,TCIA咨询小组批准后,数据收集中心(DCC)将为图像所有者提供支持,帮助研究者进行数据去识别化、网页及引文格式的创建,最后完成数据的上传。这些数据可以通过四种不同的方式供用户访问:①从首页“Collections”摘要页面访问,该页面提供了每个数据集的详细说明以及直接下载链接,可以快速获取数据的所有图像和支持数据;②放射学和组织病理学数据门户(Search Radiology/Histopathology Portal)提供更高级的检索、浏览和过滤功能,可以选择图像子集或从满足检索标准的多个集合中下载图像;③编程接口(REST API)允许软件开发人员在自己的脚本和应用程序中构建对TCIA数据的访问与使用;④TCIA还鼓励创建数据分析中心(DACs),DACs通过链接抵达TCIA编程接口或镜像Collections,它提供了额外的数据可视化或分析TCIA数据的功能。为了提高TCIA的Collections的价值,TCIA也鼓励研究人员发表他们的分析结果。通常分析内容包括肿瘤分割、影像组学特征提取、图像再处理和放射学家评估等。用户可以在分析结果目录(Browse Analysis Results)中查看其他TCIA用户发布的分析结果。总而言之,TCIA为医学影像人工智能在肿瘤学领域的研究发展做出了巨大贡献。

5.肺部图像数据库联盟

肺部图像数据库联盟(lung image database consortium,LIDC)是全球最大的肺部图像公共数据库,包括肺癌筛查和诊断的CT扫描图像,可用于包括癌症筛查、诊断、图像引导干预和治疗等相关研究。该项目于2000年由美国国家癌症研究所(National Cancer Institute,NCI)发起,目前已收录了1 010例病例,其中每个病例都有临床胸部CT扫描的图像和相关的XML文件,该文件记录了由4名胸部放射科医师进行的两阶段影像学诊断结果标注。LIDC数据库为开源数据库资源,可直接下载使用,但需要遵守数据库的引用政策。任何出版物或基金申请使用LIDC数据,需要对数据库的资助者(美国国家癌症研究所和美国国立卫生研究所)进行署名并对数据库进行引用,具体的引用及使用规则已在数据库首页注明。数据库发布以来帮助了众多肺癌筛查和诊断的计算机辅助算法搭建,显著提高了CT肺部筛查的灵敏度和特异性,并大大减少了放射科医师的工作时间。

二、国内队列数据库

1.张江国际脑库

复旦大学张江国际脑库是复旦张江脑与类脑智能国际创新中心的数据基础平台,也是上海市“脑与类脑智能基础转化应用研究”重大科技专项的重要基础设施建设平台。目前已初步建立了多维度重大脑疾病数据库,包含多种疾病和健康对照的基因、多模态脑影像、心理、行为和环境数据库。张江国际脑库数据库网站已正式投入使用,网站功能覆盖张江国际脑库数据汇集、数据浏览、数据下载申请等。该数据库已经累计招募被试5 860人,完成各模态数据采集19 544例次,并初步完成数据质控平台的搭建。预计到2023年,张江国际脑库将在全国建立多个脑科学数据库临床合作点,围绕精神分裂症、抑郁症、自闭症、脑卒中、神经退行性疾病以及正常人群六个队列建设,完成15 000例环境、行为、遗传、脑影像、神经多尺度全维度数据的采集,自主研发一系列国际领先的智能算法以及时空数据分析处理软件,同时与全球主流生物数据库和脑科学数据库建立长期合作共享机制,建成全球最大规模的全维度脑数据库和算法中心,服务脑科学基础研究、脑疾病临床诊疗与类脑智能新兴产业的发展。

2.中国影像遗传数据库

中国影像遗传学(chinese imaging genetics,CHIMGEN)数据团队由天津医科大学等30余个研究中心组成,目标采集10 000名18~30岁健康汉族受试者的基因、神经影像、环境和行为学数据,通过多维度数据研究遗传基因、环境因素、神经影像和行为表型四者之间的作用关系及交互作用。目前已经累计采集超过7 000名被试的多维度数据,建立了全球最大样本的中国汉族人群影像遗传学队列。在行为表型方面,采集包括抑郁焦虑、多维人格、认知能力等信息;在神经影像方向,采集结构磁共振成像、弥散张量成像和静息态功能磁共振成像等数据;在遗传数据方面,利用专为亚洲人群设计的高通量基因分型芯片进行全基因组基因分型,获得70余万个单核苷酸多态性位点数据;在环境方面,利用卫星遥感和国家统计局数据库收集了数百种定量宏观环境变量。该数据库的建立将推动汉族人群与高加索人群的比较研究,从而提供有关遗传-神经影像关联种族差异的新见解,而广泛的环境变量将有助于发现与神经影像表型有关的新环境因素,提示环境与遗传在人脑结构功能及精神健康的作用机制及交互作用。

3.中国CTB3S数据库

中国肺结节、慢性阻塞性肺疾病(慢阻肺)、冠心病CT一体化筛查研究(CT for big 3 thoracic diseases screen,CTB3S)项目旨在探索胸部CT对肺结节、慢阻肺、冠心病(胸部三大疾病)开展一体化早期筛查(早筛)的研究,以提高CT早筛的有效性和可行性,为重大慢性疾病(慢病)防治关口前移发挥医学影像的优势提供科学研究引领的基础。项目始于上海长征医院的国家重点研发计划,2021年上海长征医院、浙江大学医学院附属邵逸夫医院、山东省立医院、医智源健康科技(杭州)有限公司等8个单位获工信部“胸部重大疾病早筛早诊连续服务体系构建与应用示范”立项,在全国200家医院推广胸部三大疾病CT一体化筛查技术并构建多中心数据库。该数据库首期目标为3万例,目前已经完成超过1 200个基线病例。CTB3S是中国第一个面向胸部的慢病共病筛查、分层评估、表型基于CT定量影像生物标志物(quantitative image biomarker,QIB)研究的数据库,不仅包含临床、影像、流调的数据,还利用人工智能技术对CT进行定量分析,以期开展更高质量的临床研究和具有临床可解释性AI技术的研发。

4.中国MIND-CHINA数据库

中国延缓老年痴呆和失能的随机化对照多模式干预研究(MIND-China)项目旨在探索对中国老年人生活方式和社会文化因素敏感的多模式干预措施,以延缓老年人认知功能下降和体力活动功能的衰退。目前基线招募了5 765名当地农村地区的老年受试者,采集他们的生活方式、健康状况、认知功能、生物标记,以及颅脑磁共振扫描、睡眠监测和听力测试等脑老化的客观指标。这些数据有助于分析我国农村地区老龄人口轻度认知功能障碍、痴呆及其亚型的患病率,以及探索中国人群痴呆前阶段危险因素的控制方案。该数据库包括44个痴呆相关的量表,合计超过4 000个数据项,是目前国内囊括中国老年痴呆和失能相关数据最为完整的数据库。MIND-China项目得到“十三五”国家重点研发计划、国家自然科学基金委员会、瑞典研究理事会基金、山东省重大科技项目等多个项目的联合资助。以MINDChina数据库为核心,山东省立医院牵头构建了“痴呆防治研究数据库平台”,目前已有6个队列研究的子库。

5.中国C-STRAT数据库

中国冠状动脉斑块早期检测及风险分级(Chinese registry in early detection and risk stratification of coronary plaques,C-STRAT)数据库是由国家重点研发计划“冠状动脉粥样硬化病变早期识别和风险预警的影像学评价体系研究”项目资助,中国人民解放军总医院等13个研究中心参与,基于浙江大学的openEHR标准化数据技术体系建设的纵向随访数据库,囊括与冠脉相关的影像、临床等多种数据类型及长期随访。该数据库旨在采集年龄在18~75岁,没有冠心病(coronary artery disease,CAD)病史的具有稳定胸痛或等效综合征的高危人群,排除既往存在CAD病史、存在血流动力学不稳定和因非冠脉原因行冠脉CTA检查的人群。目前已经累计采集超过53 371个病例,其中男性占57.33%,女性占42.67%,平均年龄为61.82岁,阻塞性CAD(CAD-RADS 3-5)的受试者占总数的22.0%。C-STRAT数据库通过前瞻性门控保证了数据收集的普遍性和可靠性,为冠脉研究领域提供高质量的影像、临床和随访相关大数据,其中包含丰富的临床信息,具有巨大的分析挖掘价值,有助于识别和探索更多斑块特征,推动开展冠脉相关疾病的早期预警研究。总之,C-STRAT数据库是迄今为止世界上最大的与冠脉CTA成像相关的前瞻性多站点观察研究数据库,其主要目的是通过建立大规模的中国人群冠脉数据队列,评估中国无创影像技术的利用现状,协助探索新的冠脉相关疾病的早期诊断技术,进一步优化和完善当前中国冠状动脉斑块早期检测及风险分级策略。

6.国家卫生健康委能力建设和继续教育中心正式启动放射影像数据库

2021年,为全面贯彻落实国家创新驱动发展战略,加快高质量的国家医学影像数据资源建设,促进医学影像在行业治理、医学教育、临床辅助、医学科研及人工智能等领域的应用,国家卫生健康委能力建设和继续教育中心正式启动了14项放射影像数据库建设工作(表2-6-2)。

表2-6-2 放射影像数据库

续表

续表

注:DXA,双能X线吸收法;QCT,定量CT;DBT,数字乳腺体层合成;CEDM,对比增强数字化乳腺摄影

三、现状与展望

近年来,国家级战略层面及行业层面都在积极努力推动数据库建设,已经陆续有许多数据库相关的国家标准诞生,围绕着医学影像AI的发展已有示范性数据库及相关指南形成,旨在鼓励多任务多模态数据库建设,鼓励基于器官的多任务数据库建设。务求建立基于部位或器官疾病的医学影像单病种或多病种图像采集规范与识别标准,图像分割与标注标准,相关数据库建设标准共识;建立符合中国人群特点和临床诊疗规范的多模态、大容量、高质量、丰富度好的医学影像数据库,有效支撑医学影像“政产学研用”全链条发展,助力健康中国建设。

与国外医学影像相关的数据库相比,我国在数据库规范化建设、共享及管理机制方面仍处于探索阶段,面临着数据碎片化、管理共享机制不成熟等诸多困难和挑战。第一,数据共享开放程度不足。由于多数队列的建设归属于不同主体,受不同项目和基金支持,多自成体系,队列建设信息透明度较低,并且不同数据库之间所采集的信息、使用的参数都有较大差异,这给不同数据库之间的整合带来一定的困难。第二,在数据规模、质量及全面性上仍存在较大差距。大型数据库(如UK Biobank)的建设需要大量的、持续的资源支持以及专业的管理团队,而国内数据库的建设主要依托科研机构或某个具体的项目,难以保证数据库的大样本、高质量及全面性。第三,多站点来源数据融合问题。不同数据库之间数据构成、标准往往有较大差异,需要解决不同数据库的协调问题,构建结构化、标准化的数据字段,通过人工智能对非结构化不标准的数据进行清洗,提高数据的结构化和标准化程度。第四,成果权益归属等问题。在学术贡献和权益方面,与国外全面开放的数据库相比,国内数据库在数据所有权归属、研究成果归属以及研究利益共享机制等方面仍没有形成比较规范的原则与制度,仍以合作单位间协商一致为主。

综上,医学影像数据库的建设已经得到了国家的高度重视,在国家战略资源的部署层面加大力度促进高质量的国家医学影像数据资源建设。虽然我国的数据库建设仍处于初级阶段,但是近年来在医学影像相关的数据库建设方面发展迅速,很多高质量的数据库也在不断推动医学人工智能的发展。这些大样本、高质量的数据库建设是临床疾病防治的重要资源,不仅为医学影像在临床精准、智能诊疗的实践奠定了基础,而且将极大推动智慧医疗的发展。

(程炜 刘再毅) vOu8+PkybQSfbqW3ZjWv6oqIyDKzQSpAkJ6xGkOc3C9cnnKGzQiAyqmz+hO5VAGu

点击中间区域
呼出菜单
上一章
目录
下一章
×