目前,多数人工智能医学影像模型多局限于单一病种固定模态,需要使用固定模态的影像数据针对不同病种单独进行模型的开发与训练,严重影响了模型的临床普适性。如何开发模态自适应、病种自适应的模型是目前人工智能影像分析的一大难题,也是未来的发展方向之一。
此外,受不同厂商成像设备和成像参数等的影响,图像性质会发生变化。而目前多数模型的性能参数多基于类型规模有限的数据集和特定的数据获取条件。因此,受数据集规模和代表性的限制,多数模型在复杂的临床应用场景中的鲁棒性有待提升。
有效的影像组学模型往往依赖质量高、类型多、规模大的数据。目前,大部分临床影像数据多存储于各自的医疗机构中,缺乏共享平台。然而单中心的数据总量多集中于100~500例的体量,难以突破千例,这为机器学习(尤其是深度学习)模型的有效训练带来了巨大阻碍。由于缺乏多中心、大规模和前瞻性的验证数据,构建的影像组学模型往往泛化性能较差,无法根据多中心数据调整模型参数或优化模型结构以提高其泛化能力。因此,数据难以集合共享是开展高质量影像组学研究面临的重要挑战之一。
数据的标准化采集将有效推动这一问题的解决。医疗机构间可通过建立影像组学科研联盟,共同制定数据收集标准,以形成更大样本的高质量数据集合。在标准化数据收集过程中,不仅需要规范化临床基线和预后数据的采集,更重要的是,需要建立影像标注的专家共识,以达到影像标注的一致性、规范性和可信性,建立更加鲁棒的影像组学模型,推动其在多中心的推广应用。当然,随着数据量的增大,标注耗时长、训练成本高等问题也会随之出现,因此也急需研发弱监督或无监督等有效的新算法。
此外,数据体量有限的情况下,也可通过对小样本、样本不均衡及标注不规范等问题的算法改进,弥补数据难以集成共享对影像组学模型构建的影响,尽可能提升数据的使用价值。
近年来,在关注模型精度和稳定性的基础上,越来越多的研究开始关注模型的可解释性。提升模型的可解释性,对于提高模型的临床认可度,提升影像标志物临床适用性起着重要作用。
基于特征工程的影像组学模型多采用自身结构较为简单、模型结果本身具有解释效果的决策树等经典模式识别模型,通过将先验知识融入新特征的构建,如可反映肿瘤血管生成的血管弯曲度特征,配合与分子通路的相关性分析,可以在一定程度上解释模型的生理学意义。
基于深度学习的影像组学模型往往结构复杂,虽然可一定程度上增强模型的预测性能,但模型本身可解释性较低,因此提升其可解释性尤为重要。目前提升这类模型可解释性的方法主要包含两个方面:①事后解释法,通过使用自然图像领域激活最大化、反卷积和显著性等可视化处理,利用热图突出影像中不同区域对预测结果的贡献程度,是目前最常用的分析手段。但这些方法无法解释模型的具体决策过程,且关键区域内具体的生理学意义依然需要进一步的生物学相关性验证。②基于先验知识构建可解释性模型,如通过预测放射科医生定义的语义特征来实现对肺结节良恶性的分类,在提升预测性能的同时也提升了模型的可解释性。此外,还有研究人员提出一种可解释网络,通过预测可能发病的区域,并将预测的区域特征与原型进行对比,不断学习发病特征,然后给出预测结果。
目前基于影像组学的商业化软件仍然有限,其原因主要是针对不同临床问题所构建的影像组学模型泛化能力和稳定性仍需进一步提升和验证。模型不仅应在国内多中心不同成像设备间仍保持较优的预测性能及泛化能力,还应考虑在特定人群中的应用效能,如不同地域在基线水平不一的情况下,模型是否仍具备较好的鲁棒性。因此在影像组学软件商业化的过程中,应格外注意衍生AI产品数据测试的不同环境,以保障商业化应用时产品的稳定性和鲁棒性。此外,在商业化过程中,还应注意对患者隐私的保护和数据归属的明确,应充分考虑法律和伦理以规范其应用,保障患者数据和隐私的安全性,以更好更优地推进影像组学相关AI产品在健康医疗领域的商业化和落地。
微观基因、蛋白质和分子改变会体现在宏观影像特征的改变上,通过深度挖掘影像特征,可以在一定程度上反映人体组织、细胞和基因水平的变化,因此利用影像组学标志物逼近分子标志物,从而进一步实现疾病的诊断和预后评估,是使影像组学模型具备生理学意义、提高临床可接受度的重要手段。此外,目前的影像组学分析均是基于设备采集信号后重建的医学影像,进而面对临床目标构建模型。然而影像在重建过程中难以避免地会损失掉部分有价值的诊断信息,因此如何通过影像组学直接分析重建前的设备采集信号,实现从重建前的裸数据信号到诊断知识的直接映射模型,将有助于进一步提升诊断性能。
过去10年见证了影像组学的飞速发展,虽然现阶段其在临床应用中面临一定的挑战,但随着高质量、标准化、多中心、前瞻性数据的不断获取与共享,新技术的不断出现及研究水平的进一步提升,影像组学将能真正辅助放射科医生或临床医生更好地制定个体化治疗方案,使患者获益。
(牟玮 魏靖伟 张帅通 田捷)