医学影像利用光、电、磁、声等物理现象对人体或人体某部分以非侵入方式获得内部组织影像。临床中最常见的影像模态包括X射线摄影、计算机体层成像(computed tomography,CT)、磁共振成像(magnetic resonance imaging,MRI)和超声等。作为医疗临床中最重要的“证据”来源之一,影像数据在医疗数据中占比超90%。
医学影像及其研究任务拥有如下的明显共性特点(图4-1-1):
一方面,新扫描协议的使用和新模态如能谱CT(spectral CT)等的发明导致影像模态增多;另一方面,随着医学成像设备的更新换代,影像的像素精度变高,信息密度增大。临床用CT/MRI的空间分辨率达亚毫米级;超声空间分辨率比CT还高,时间分辨率达到实时。
虽然医学影像数据在临床中大量存在,源于设备、操作等方面的非标准化数据之间的差异性很大,存在所谓的“分布漂移”现象。由于隐私、管理等因素,数据在不同的医院、影像中心等孤立地存在,真正中心化的开源医疗大数据并不多见。
医学影像是疾病的表征。影像知识库Radiology Gamuts Ontology定义了12 878种“症状”(导致结果的条件)和4 662个“疾病”(影像学发现)。但是疾病的发病率呈现典型长尾分布,小部分常见疾病占据大量病例,而大部分疾病在临床中并不多见,数据量少。另外,传染性疾病时有发生,如2020年的COVID-19,初期影像资料稀缺。
影像数据的标注费时昂贵,造成标注的稀疏性;同时不同的任务需要不同形式的标注。另外,标注通常因人而异,不同医生之间的差异性大;标注通常是有噪声的;标注“金标准”的建立也是个悬而未决的问题。
图4-1-1 医学影像的显著特点及其对应的智能算法的热点趋势
在已标注的数据样本中,无论是正样本还是负样本,样本个别差异度大,其概率分布呈现典型的多模态。在二分类问题中,通常正样本和负样本的比例极度不均衡。例如,在肿瘤分割任务中,肿瘤的像素数量比正常组织通常少一个甚至多个数量级。
医学影像计算有繁多的任务。在技术层面,有重建、增强、恢复、分类、检测、分割、配准等,这些技术及其组合,再加上影像模态和疾病种类的多样性,产生层出不穷的应用场景和高复杂度的任务。
在安全层面,医学影像计算模型在面临对抗攻击时,即加上一定肉眼觉察不出的扰动,模型的预测输出可以被操纵,因此呈现脆弱性。在伦理层面,模型对于不同患者群(按患者本身的属性如性别、年龄等划分)呈现不同的性能,如在男性患者上的模型准确率明显高于女性患者,因此呈现不公平性。
从临床常用医学影像设备(如X射线设备和MRI)的成像方面,X射线设备低辐化和MRI快速化是两个显著的发展需求;前者是因为X射线会对人体有不可恢复的损害,后者源自MR成像的原理性要求。当然,目前成像过程中还有如金属、运动等伪影的存在,影像质量有待提升。
(周少华)