购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第十章
结直肠癌多组学、大数据、人工智能基础

组学分析可以提供不同生命进程或疾病与正常对照相比差异的生物学过程信息。然而单一组学分析往往有局限性,缺乏整体观。随着高通量组学技术的发展,生物学研究已从单一组学层面逐步走向多组学分析。多组学分析整合几个维度水平的组学信息,如基因组、转录组、蛋白质组、表观基因组、代谢组和微生物组等不同分子层面的组学数据,利用组学间的交叉互补,探索彼此之间的内在关联并构建调控网络,深层次理解各个分子之间的调控及因果关系。如肿瘤蛋白质基因组学(cancer proteogenomics)是将基于质谱的蛋白质丰度和翻译后修饰(post-translational modification,PTM)信息与肿瘤组织的基因组、表观基因组和转录组数据相结合的组学技术。基因组学和表观基因组学为解释可能发生的生物过程提供了遗传信息,蛋白质组学则是对已经发生事件的汇总和分析(蛋白质及其修饰是生物表型的最终执行者)。因此,多组学整合分析不仅仅是数据的拼接,更是对肿瘤生物学的分子机制和遗传基础的整体认识,为肿瘤研究提供新思路。

多组学研究的最大挑战在于巨大的数据量和大数据背后生物学机制的复杂性。如何处理含有噪声的多组学大数据,并对这些数据进行组学间的整合分析则是其中的关键。目前主要通过基于机器学习(machine learning,ML)的预测算法进行大数据整合分析,包括有监督和无监督两种主要学习策略。多个研究团队已成功应用于基因表达和DNA甲基化的整合分析,不同的转录组学(即mRNA、miRNA和lncRNA)的整合分析,代谢组学和蛋白质组学的整合分析,转录组、蛋白组和代谢组联合分析等多个应用场景。近年来各种复杂的ML分析方法的应用流程也已逐渐完善,提供了基于给定场景选择适当方法(或方法系列)所需的各种决策步骤。因此,ML目前已广泛应用于多组学整合分析,在疾病诊断、疗效预测、预后和生物标志物识别等研究中发挥越来越重要的作用。

第一节 结直肠癌的多组学研究应用与进展

一、基于组织水平的多组学研究在结直肠癌中的应用与进展

基于组织样本水平的结直肠癌(colorectal cancer,CRC)的多组学研究近年来进展显著,在CRC发病机制解析、筛查与早期诊断、分子分型与预后预测、靶向治疗策略、肝转移机制等领域取得了较多的成果。

1.CRC筛查与早期诊断

结直肠肿瘤(包括癌和腺瘤)患者的肠道菌群组成会发生显著改变,这些变化的菌群可调节局部免疫反应,产生的代谢物可调节肿瘤的发生和进展;同时肠道细菌产生的代谢物可进入身体循环并发挥调节作用,导致结直肠肿瘤患者的血清代谢物明显区别于正常健康个体。因此,通过粪便宏基因组、粪便代谢组和血清代谢组的整合分析,不仅可以揭示肠道微生物组相关代谢物在结直肠肿瘤中的作用,还可以研发基于宏基因组和代谢组学标志物,或基于肠道微生物组相关血清代谢物(gut microbiome-associated serum,GMSM)策略,用于区分结直肠肿瘤与正常健康个体。

国家癌症中心崔巍团队利用血清非靶向代谢组学和肠道菌群宏基因组测序进行整合分析寻找潜在生物标志物,发现有8种GMSM在结直肠肿瘤中发生显著改变,进一步应用靶向代谢组学技术和空间代谢组技术从另外维度确认了研究发现。应用逻辑回归方法基于8种GMSM建立了预测模型,可以准确区分结直肠肿瘤与正常健康个体,在建模队列中的曲线下面积(area under curve,AUC)为0.98,在验证队列中AUC为0.92,明显优于FOBT/FIT及临床标志物癌胚抗原(AUC=0.72)。虽然该发现还需进行更严格的验证,但已经展现出让人振奋的临床应用前景。

2.CRC发病机制解析

癌基因产物如何影响下游信号通路变化造成CRC的发生发展一直是生物学研究的重点。早期通过应用抗体或芯片技术的靶向蛋白研究受限于分析广度与深度,无法解析更全面的蛋白调控变化,也无法揭示蛋白质翻译后修饰在其中的角色功能。近年来,利用基于质谱的高深度蛋白质组学以及蛋白质修饰组学并整合转录组等测序技术的多维组学分析,提供了肿瘤发生过程中蛋白调控网络变化全景式解析,进而发现新的调控通路或调控模式,使得研究不再是管中窥豹,而是纵览全局,一目了然。

美国孟菲斯的研究员以两种由致癌受体酪氨酸激酶(PDGFRA D842V或TPM3-NTRK1融合)驱动的HGG小鼠模型为研究对象,采用高深度蛋白质组学、磷酸化修饰组学和转录组学的多组学整合研究,发现两种HGG肿瘤在RNA、蛋白及磷酸化层面均具有明显差异。通过WGCNA及one-way ANOVA等分析技术,找到了不同组学维度上两种HGG肿瘤样本中的特征调控通路。在HGG模型中激酶的活性相较对照组有较大的不同,从而证明了肿瘤中激酶表达谱及其活性的重编程,其中最值得关注的是AKT激酶以及其下游磷酸化信号通路具有较强的激活。随后进一步分析了转录组数据中与激酶相关的转录因子表达水平变化,得到HGG肿瘤中特异性的激酶-转录因子调控网络,并且发现相较于 PDGFRA 突变, NTRK 突变的HGG肿瘤模型表现出更强的AKT激活活性,且具有更差的预后。最后,通过CRISPR-Cas9的方法对发现的一些关键作用基因如转录因子或关键激酶等分别进行敲除筛选,寻找到了潜在的肿瘤治疗靶点。这一研究范式或将为后续的转化医学研究提供新思路。

3.CRC分子分型

基于蛋白质组学和磷酸化蛋白质组学数据的CRC分子分型近年来取得了初步的成果。研究者对146例CRC患者原发肿瘤和正常组织进行蛋白组学分析,通过共识聚类将CRC分成三个分型(CC):CC1集中在RNA加工和DNA错配修复(mismatch repair,MMR);CC2集中在细胞外基质-受体整合、黏着斑和免疫相关途径;CC3集中在DNA复制和代谢途径激活。进一步比较三个分型的临床特征,发现三种分型具有不同的无复发生存率,CC3型CRC患者较CC1型、CC2型患者预后差,表明分型是独立预后因素。进一步对患者的原发肿瘤和正常组织进行磷酸化蛋白组学分析,从中发现1 487个差异磷酸化位点。进一步通过共识聚类将其分成6个亚型,其中SC1、SC3、SC5富含转移性CRC,SC2、SC4、SC6富含非转移性结直肠癌。极其有趣的是,磷酸化蛋白组学数据聚类出的亚型能将每种蛋白质组学分型中的转移性和非转移性结直肠癌完全区分。

左右半结肠癌及直肠癌在临床表现、预后、对治疗的反应等方面均存在较大的差异。相比左半结肠癌,右半结肠癌的预后更差。多组学分析在探究左、右半结肠癌及直肠癌的差异本质方面近年来取得了一定的研究进展。通过应用来自癌症基因组图谱(TCGA)、纪念斯隆-凯特琳癌症中心(Memorial Sloan-Kettering Cancer Center,MSKCC)和癌症蛋白质组图谱的数据,对右半、左半结肠癌和直肠癌的体细胞基因组、蛋白质组学的数据进行分析,以了解每种肿瘤亚型独特的分子特征。克隆进化轨迹分析显示,这三种癌症均存在 APC TP53 KRAS 基因突变,提示可能存在共同的起始体细胞分子事件。然而在癌症发生和发展进程中,每个事件在肿瘤发展过程中的作用在三个解剖位置都是不同的,三者在进化轨迹、突变图谱等方面均具有独特性,并不遵守此前建立的结直肠癌从正常黏膜到腺瘤再到癌的Vogelstein线性进展模型。热点突变分析发现不同部位均存在新的显著突变基因,如无义突变 APC R1450 *,特异性存在于右半结肠癌。应用癌症蛋白质组数据,分析三个部位肿瘤的蛋白质组共表达网络。结果发现三种癌症中没有出现共同的蛋白,在蛋白质-蛋白质相互作用网络中,几个中心蛋白及其各自相互作用对于每个位置都是唯一的,如在右半结肠癌中起重要作用的中枢蛋白:PEA15(凋亡和RET信号转导)、DVL3(细胞增殖)和PDPK1(生长调节)、BAP1(肿瘤抑制基因)、CASP8(凋亡)、PCNA(DNA修复)、NRAS(RTK-RAS途径);在左半结肠中重要的中枢蛋白:BAP1、BAK1(乳腺癌凋亡和预后)、COG3(蛋白质糖基化/高尔基体功能)、CCNB1(乳腺癌有丝分裂和预后)、SRSF1(小细胞肺癌中RNA剪接与预后)、DIRAS3(肿瘤抑制基因)和LCK(抗凋亡);直肠癌特有的中枢蛋白包括LGF1R(增殖、侵袭、转移)、TSC1(细胞生长)、BRCA2(DNA修复)和COPS5。

4.结直肠癌肝转移机制及靶向治疗

中国科学院分子细胞科学卓越创新中心和海军军医大学联合进行的一项研究采用了大量的组学分析技术,系统性分析了70例转移性和76例非转移性结直肠癌患者的基因组学、蛋白组学和磷酸化蛋白组学特征,发现原发性肿瘤和转移性肿瘤之间基因突变谱高度一致,与以往研究和西方CRC患者数据无明显差异,提示转移瘤来自原发肿瘤或同一祖先克隆。然而,原发肿瘤和转移瘤在蛋白质组水平差异显著,这些差异蛋白可将原发瘤和转移瘤明显区分。转移瘤上调蛋白主要集中在ECM-受体互作、药物代谢、细胞黏附和紧密连接相关,而下调蛋白则集中在代谢途径、脂肪酸降解、三羧酸循环和氧化磷酸化中。激酶-底物互作的网络分析进一步预测了转移性肿瘤的药物敏感性,为精准治疗提供了新靶点。

肿瘤中蛋白质组学和磷酸化蛋白质组学变化在揭示新的治疗靶点上具有独特优势。通过对来自110例CRC患者配对肿瘤组织和邻近正常组织的蛋白质组学和磷酸化蛋白质组学进行分析,确定了CRC相关蛋白、磷酸位点和激酶活性,包括已知和新鉴定的生物标志物、药物靶点和肿瘤抗原。此外,蛋白质组学数据还将糖酵解增加与CD8 + T细胞减少相关联,提示抑制糖酵解可能使CRC对免疫检查点阻断疗法更加敏感。磷酸蛋白质组学数据还揭示了RB1过度磷酸化在促进结肠癌增殖和抑制细胞凋亡方面的双重作用,突出了通过CDK2抑制来靶向RB1过度磷酸化在该疾病中的独特功效。

二、基于单细胞的多组学研究在CRC中的应用与进展

在逐渐解决单细胞组学检测技术面临的高通量样本准备和高灵敏度检测这两大技术难题后,多组学研究也逐渐从组织水平进入了单细胞水平。在单细胞水平进行基因组、转录组和蛋白质组的定性定量分析,更深入探究CRC的生物学变化,如CRC细胞异质性及演化进程、肿瘤微环境与肿瘤细胞间的相互作用等在组织学水平难以回答的问题。

(一)CRC癌前病变演进

90%以上的CRC起源于结直肠腺瘤,但这类癌前病变中仅有很少一部分进展为肿瘤,准确判断出有恶变潜力的腺瘤是一个不小的挑战。美国范德比尔特大学Robert Coffey教授团队通过对患者同一息肉样本完成单细胞转录组学、基因组学和免疫组织病理学分析,综合分析了来自62名参与者的128个数据集,发现传统腺瘤源于Wnt驱动的干细胞扩张,而锯齿状息肉源于胃化生分化的细胞。这两种路径形成的病变组织具备不同的免疫微环境特征,其中化生起源的锯齿状息肉展现出以CD8 + T细胞增多为特征的细胞毒性免疫微环境,且这种免疫改变早于肿瘤基因组超突变(hypermutation)的形成。微卫星不稳定CRC含有明显的非化生区域,肿瘤细胞在此获得干细胞特性并形成细胞毒性免疫细胞枯竭。该研究在癌前病变演化的问题框架下,展示了基于多组学技术深入挖掘生物学意义的创新路径,为探索肿瘤发展中不同细胞群体差异演化路径给出经典示范,其中揭示的肿瘤内部基因程序的特征、免疫微环境的差异等,为结直肠息肉的精准分子分型提供了新依据,为CRC的精确监测和预防提供了新思路。

(二)CRC与肿瘤微环境互作

肿瘤微环境中的细胞可能通过与癌细胞的相互作用而促进疾病的进展,但是对于这些细胞被癌细胞转化的程度还知之甚少。我国汤富酬等通过单细胞多组学测序技术,包括单细胞基因组和转录组测序技术,从21例结直肠癌患者的肿瘤组织、正常组织、血液和淋巴结样本中分离出单细胞,从6例从未罹患癌症的老年人的血液样本中分离出免疫细胞,共产生了超过15 000个细胞的RNA图谱,以及其中近13 500个细胞的DNA图谱。这些细胞包括约1 500个上皮细胞、2 000个成纤维细胞、9 000个免疫细胞和1 000多个内皮细胞。研究发现CRC微环境中成纤维细胞、免疫细胞和内皮细胞中普遍存在体细胞拷贝数变异,其中肿瘤组织中非整倍体成纤维细胞的比例比正常组织中要高得多,且7号染色体拷贝数增加的成纤维细胞克隆尤为富集。此外,多组学分析同时鉴定出了5个基因( BGN RCN3 TAGLN MYL9 TPM2 )为CRC预后较差的成纤维细胞特异性生物标志物。

(三)转移性结直肠癌机制解析

为了更好地了解CRC的发生与转移,我国汤富酬等多名专家课题组联合开发了一种单细胞多组学测序方法scTrio-seq2,首次在单细胞分辨率、多组学水平解析了人类CRC在发生和转移过程中,基因组拷贝数变异、DNA甲基化异常及基因表达改变的特点及相互关系。利用该方法,研究团队对来自12例CRC患者的1 800多个单细胞进行了多组学测序,鉴定出每位患者克隆突变产生的遗传谱系,并与基因表达、拷贝数变异和甲基化数据联系起来,从而跟踪肿瘤是如何演化成转移性肿瘤的。例如,在一名患者的原发肿瘤中鉴定了12个遗传亚系。单细胞测序数据显示,转移性肿瘤的复杂程度低于原发肿瘤,提示转移性肿瘤可能是克隆性的。研究人员还发现,癌细胞基因组DNA甲基化谱与遗传谱系呈现高度一致性。虽然甲基化水平在同一遗传亚系保持一致(包括转移性肿瘤),但不同谱系间甲基化水平不同,并且与相邻正常细胞的甲基化水平也不同。提示原发肿瘤和转移瘤DNA甲基化水平的差异主要由遗传亚系组成差异导致,而不是转移过程中的甲基化或去甲基化导致。单细胞多组学测序为了解CRC的进展和转移过程的分子机制提供了新的见解和信息,为基于DNA甲基化的癌症治疗方案也给出了新的启示。

第二节 大数据与AI在结直肠癌诊治中的探索与应用

一、结直肠肿瘤大数据

(一)CRC大数据在医疗信息平台建设中的应用

大数据是具有大通量、高增长和多样化的信息数据,在获取、存储、管理、分析方面的能力超出了传统数据库软件工具的能力范围,无法在单位时间内使用常规软件工具对数据内容进行抓取、管理和处理的数据集合,需要应用新型的处理技术和处理模式才能具有更强决策力、洞察力和流程优化能力的信息数据集,具有大规模的数据、快速的数据流转、多样的数据类型和价值密度低等4大特征。

CRC的发生发展与治疗预后的相关性是大数据在CRC诊治中应用的核心关键。因此,建立健全的随访制度、制订数据前瞻性管理的合理方案并对数据进行质量和标准化管理是解决数据缺失、数据孤岛等问题的途径。大数据能将患者的影像数据、病历数据、检验结果、诊疗费用等各类非结构化数据录入系统,建立医疗数据库、信息共享平台、数据实时监测等。在各级医院电子病历、医学影像、临床检验等结构化、非结构化、半结构化数据的分析研究基础上,构建CRC预警系统、个体化治疗模型,结合人工智能(artificial intelligence,AI)技术形成对文本、语音、图像进行智能识别的远程智能医疗服务平台,为国家卫生综合管理信息平台、电子健康档案资源库等提供基本数据源,并提供数据源的存储更新和管理来协助宏观政策的制定以及应急卫生事件的处理。

大数据应用于医用健康监测管理系统的设计,该系统能提供个人健康信息管理、健康计划管理、体检信息管理、定期复查提醒以及大数据分析等功能。个人健康信息中,体重、血压、心律等数据是需要实时监测的,尤其对于已出现疾病症状的人群,系统通过对大量的体测数据进行分析和挖掘,分析出使用者当前的身体状况、潜在疾病的预警和疾病发展趋势,进而提供一定的决策信息用于提示预防和治疗。使用者也可通过实时查看健康信息和系统分析的意见来得知身体的整体概况,结合实际情况调整生活作息、饮食、用药或者采取及时就医诊治等措施。

个人监测数据的来源主要通过各类医疗智能传感器、血压计、体温计、心电检测仪等来获得原始的健康数据,再通过成熟的无线传输技术将数据传输到系统平台上进行存储、处理。经处理后的数据信息可以直观地通过互联网或社交媒体、app为使用者显示。

(二)大数据技术在医药研发中的应用

医药研发单位能通过大数据技术分析疾病的特点与药物的特性,以此来制订更为有效率的新药研发方案。通过数据筛选可以节省药物开发流程和步骤,准确筛选出靶点化合物,精确设计出开发路线,提高研发效率。大数据能提供大量的临床数据和文献信息供研究者分析整合来推动药物研发路线的制订,研究者借由多元化的交叉数据进行排列组合,提出具有可行性的假说并筛选对特定作用靶点具有较高活性的先导化合物来进行验证。同时,可以避免临床试验报告等传统研究方法的样本量小、采样分布有限、落点范围局限等问题。从大数据中挖掘出大量与疾病相关的化合物特性与药物相关的不良反应所获得的交叉比对结果将在新药研发的方法学上更具有针对性。

药物发现主要包括靶点选择及先导化合物的发现和筛选。大数据挖掘和分析技术能寻找具有潜力的先导化合物,提升新药研发效率。通过大数据进行前期研究的文献数据整合分析、药物研发数据集建设和基准化合物库设计等,再进一步利用AI的自然语言处理与知识图谱技术实现信息的快速提取。利用自然语言处理技术检索并分析研究文献、专利和临床试验报告等非结构化数据库,寻找与疾病相关的潜在性、容易被忽视的通路、蛋白和机制,提出新的可供验证的证据,从而发现新机制和新靶点,对推动新药研发的知识进行聚类分析,最终提出具有可行性的假说并进行验证。

大数据结合AI技术能在药物探索研发上聚焦于靶点发现、晶型预测以及候选药物分子的筛选优化,有助于药物靶标的确立。利用AI的认知计算能力可实现预测小分子药物所有可能的晶型,晶型的预测技术也将缩短晶型开发的时间,能更有效地挑选出合适的药物晶型,还可建立虚拟药物筛选模型,检索更快、覆盖范围更广,过滤不适配的化合物,从大量化合物数据中挑选出具有高潜力的候选药物,加速先导化合物的发现和优化以及候选药物分子的产生,缩短研发周期、控制研发成本等。

二、医学AI

(一)AI在医疗应用领域

智慧医疗是将AI与大数据技术应用于医学诊疗中,通过计算机和深度数据挖掘等技术辅助医师进行病理、临床数据、检测报告的统计,对患者的医疗数据进行归纳分析。计算机通过AI进行医学专业知识的学习训练,模拟医师的临床思维和决策逻辑,最终给出可靠的诊断和治疗方案。智慧医疗包含医学影像识别、医用机器人、药物智能研发、智能健康管理等多领域技术,是AI及大数据在医疗领域中的核心应用场景。

CRC有较高的致死率和较差的预后,对人们的健康和社会经济带来巨大影响。针对CRC的早期筛查、早期诊断及早期治疗一直是临床工作的侧重点,而AI技术与大数据对于在肠癌中实现早诊早治具有广泛的应用性及适配性。AI技术与大数据主要应用于结肠镜下息肉的实时分类定位、数字化病理图像分析、治疗方案制订及CRC预后分析模型等方面,为临床医师提供辅助诊疗意见并构建CRC诊疗体系。

AI技术中的深度学习(deep learning)具有分析大量数据中隐藏特征的能力,包含多维隐层的人工神经网络(artificial neural network,ANN)模型,从数量大、干扰多、结构复杂的数据集中进行特征学习,通过组合低维特征形成高维层次的特征属性,并从中发现人类无法察觉的细节特征及隐藏规律,进而利用大量的结构化数据进行自动学习和训练抽象数据的可视化特征表达,将原始资料处理成可直观理解的知识结构。

近年来,医疗AI学科交叉研究已逐渐展开。在深度学习框架下,AI可以实现定量化的病理诊断、实时影像识别、疾病的预后预测等相关数据分析任务,主要应用于疾病的早期筛查、疾病分级、肿瘤性质判断、病理切片染色分析、预后预测、治疗-反应预测和疾病分期等方面。其中,深度学习在医学影像学识别研究中应用最为广泛,尤其在内镜图像、X线片图、超声图像、CT图像、磁共振图像、组织病理切片图像的识别过程中表现优异,并可以根据不同类型的数据进行算法架构的再训练、再应用。

AI图像识别技术能辅助弥补医师在进行人工读片时产生的主观性偏倚。由于图像中隐含着人眼无法识别的信息维度,导致图像的信息利用率不足,而医疗数据中有超过90%的数据来自医学影像,当影像学诊断过于依赖医师的个人主观经验和认知时,在诊断过程中容易产生误判。AI通过大量经标注后的医学影像数据训练,可以模拟人类专家决策判断,进一步辅助医师进行病灶区域或目标物的定位分类来提高诊断率。

目前根据AI辅助系统开发的智能设备可以实时监测患者的生命体征及实验室检查指标,进行分析评估后提出最适宜的健康管理方案。目前在精准医学的健康管理方面主要应用于疾病风险识别提示、专家系统、智能化虚拟护士及实时在线问诊等,并结合大数据信息,可以训练出具有针对性的模型来筛选出最符合病情治疗的药物以及治疗方案,通过多学科的专家经验来为医师提供综合性辅助信息及病情发展的初步预测。

(二)AI在结肠镜检查中的应用

结直肠镜检查作为首选的CRC筛查手段,可以达到早期筛查、早期诊断及早期治疗的临床目的;在疾病早期尽早摘除息肉及癌前病变组织对于降低CRC的发病率及死亡率具有明显的临床意义,而结肠镜检查的结果与检查质量取决于内镜医师的操作水平、专业知识、现场因素及目标息肉的性质特征等,传统的结肠镜检查存在一定的息肉漏诊率。息肉漏诊一旦产生,将可能导致漏诊患者间期CRC发生率提高,影响其生活质量并降低生存率。肠镜的筛查结果作为主观指标受人为因素影响较大,不同内镜医师的镜下操作水平与临床治疗经验直接影响息肉的检出率和误诊率。个别肿物于肠镜下肉眼难以识别、极易漏诊,甚至隐匿演变为CRC致使肠镜检查的息肉漏诊率提高,导致治疗时机的延误或错误治疗方案的实施,影响CRC高危人群的生存预后。

由于结肠镜诊断专家经验方面的差异,导致结肠癌诊断的准确度上存在差距,尤其是在非息肉性病变筛查方面。AI模型可以实时提醒内镜医师避免在结肠镜检查中出现非息肉样息肉等漏诊情况,弥补不同水平医师之间诊断质量的差距,提高CRC的早期发现率。AI模型具有自动特征提取及数据判读能力,不受疲劳等主观因素影响,AI通过对肠镜的实时影像侦测,对息肉进行实时的位置定位及形态学分类,以此来辅助内镜医师进行肠镜检查,降低漏诊率、减少误诊率,实现标准规范化和统一化。当前诊断CRC的常规检查有粪便DNA检查、肿瘤标志物、血液检查、结直肠镜检查等,由于其他方法在灵敏度与特异度上均低于结直肠镜检查,结肠镜检查仍作为预防CRC的首选方案。

结肠镜检查息肉的漏诊率为24%~35%,特别是微小腺瘤的诊断存在困难。利用AI辅助结肠镜检测技术来改善肠镜筛查效果成为内镜领域的研究热点。已有相关研究表明,通过AI辅助结肠镜检查能有效提高内镜下息肉的检出率与降低漏诊率。AI辅助的结肠镜检查对结直肠息肉有较高检出率和特异度。Urban等在2 000多名结肠镜检查的患者中收集了8 641张标注的肠镜图像,建立了一个卷积神经网络(convolutional neural network,CNN)模型,用20个结肠镜视频对该模型进行测试,其识别准确率为96.4%,接受者操作特性曲线下面积AUC值为0.991,假阳性率为7%。Wang等利用AI辅助技术对1 058例患者的结肠镜检查视频进行检测,发现使用AI技术可以提高腺瘤检出率约29.1%,原因在于AI模型检测出了更多小的腺瘤性息肉,而对较大的腺瘤性息肉不具显著性优势,增生性息肉的检出率也有所提高。此研究认为在肠道准备良好的情况下,AI检测组对比人工检测组的腺瘤和息肉检出率较高。多项临床研究通过建立不同类型的AI检测模型进行肠镜试验,在测试中发现AI模型相较于内镜医师有更高的检测灵敏度,尤其对小的、扁平的、肉眼不易察觉的息肉检出率均有所提高,并具有较高的准确率。

(三)AI在CRC影像学检查中的应用

AI技术应用在医学影像组学能识别人眼无法观察到的高维影像深层特征,从而辅助临床医师改变目前临床诊断主观性较强、定量信息较少及精神体力不足造成的诊断偏倚情况。通过结合影像组学、实验室检查数据、患者生命体征产生疗效评价和预后评估,在治疗效果评价和预后预测方面能提高CRC患者的风险分层、治疗敏感性和准确性,从而有助于临床医师制订个体化治疗方案,促进疗效优化,避免无效、低效或过度治疗。AI图像识别技术能够显著提高医学影像的可读性,客观地为医师提供病情的综合性参考意见,减少不同医师之间的诊断经验差距,帮助医师做出更为精准的诊断决策。识别图像技术能够提供肉眼无法辨识的图像信息,如色泽、纹理、形态、亮度、质地等特征。经过特征提取后,AI模型可以对肿瘤进行分类识别或定量评估肿瘤的病变性质,以此来协助临床医师进行肿瘤分期、术前诊断、预后判断以及预测肿瘤复发概率。

医学影像组学是CRC分期、分子分型预测、疗效评估和预后预测重要的评估手段。AI在获取大量标准化的医学标注图像数据后会进行模型的训练,当模型参数及权重训练完成后,会使用图像分割技术对肿瘤图像进行分割并提取形态学和纹理特征,最后会按照设计需求使用如ANN、logistic回归模型、支持向量机(support vector machine,SVM)等AI技术来建立影像组学预测或分类模型。

MRI是CRC术前检查的手段之一,在对肿瘤的位置、肿瘤浸润深度、淋巴转移程度、周围血管组织是否受侵犯等方面具有显著的检查优势,但是MRI结果图像的判读同样受到医师临床经验、专业水平和工作强度的影响,存在误诊、漏诊的可能性。Trebeschi等通过深度学习算法开发了一种自动分割模型,利用140例直肠癌患者的MRI图像建立了训练集,对MRI图像进行直肠癌的准确定位和细分化,该自动分割模型具有良好的诊断性能,其细分效果与影像学专家手动勾画出的细分水平相当。同时,在分类方面该模型能够正确分类肿瘤体素(AUC=0.99)。研究证明在训练数据量充足、模型架构合理构建的情况下,AI能够辅助医师诊疗并能有效减轻医师工作量和降低人为产生的影像学诊断学水平误差,已逐渐发展成为影像组学提取数据信息的一种手段,为肿瘤的个体化诊治增加了更多治疗选择。

基于AI的影像组学能挖掘出传统医学影像中无法被人类直观接收和了解的隐含信息,如肿瘤的治疗-反应关系以及疾病预后预测等信息。结直肠肿瘤的诊断可分为定性诊断和分期诊断两部分。定性诊断是指通过全结肠镜检查和病理活检来确定是否存在结直肠肿瘤,而CT是评估CRC分期诊断的重要指标之一,在CRC的定性诊断和分期诊断中都具有重要意义。CRC的术前定位诊断主要依靠CT和MRI检查,Fan等通过提取增强CT图像特征来预测肿瘤的微卫星不稳定(MSI)状态,其模型的AUC值为0.688,在结合临床指标后模型AUC值达到0.752,具有一定临床参考意义。Wei等利用192例结直肠癌肝转移患者的CT图像来进行AI模型的训练,用来评估直肠癌肝转移患者化疗后的有效性预测,其AUC值为0.82,代表模型的预测具有相当的可靠性,也代表了AI技术在影像组学具有实际临床应用价值。

在结肠镜方面,AI已经作为息肉检测的辅助手段得到广泛应用。Masashi Misawa的团队开发的一套计算机辅助诊断(computer-aided diagnosis,CAD)系统,使用了权威专家对结肠镜的诊断资料作为系统训练样本让CAD进行学习,该系统基于学习成果的分析结果显示,其灵敏度、特异度和准确度分别为90.0%,63.3%和76.5%。该系统技术有望拉近不同水平医师之间的诊断质量差距,使诊断平均水平整体提高。CAD同样也应用在CRC的分期诊断中,以及常用于CT等影像学技术来进行CRC的分期诊断。

(四)AI在CRC病理检查中的应用

病理学诊断是CRC确诊的金标准,病理科医师借助显微镜观察病理切片上的细胞学和组织学病变来确定病变类型,具有高度主观性及不可重复性,并且耗费大量时间和精力。由于病理切片信息被保存在载玻片上,无法与计算机和网络数据平台相结合造成数据传递困难、信息处理模式受限,进一步影响了病理学科的整体发展进程。

当前,AI技术已逐渐广泛应用于病理图像识别领域,间接提高了病理切片的数字化程度。数字病理(digital pathology,DP)采用全玻片数字扫描技术,通过全自动显微镜扫描获得高分辨数字图像,再应用计算机对图像进行高精度、多视野、无缝隙拼接的处理得到全玻片病理图像数据,形成数字切片。AI模型通过对影像组学和病理学图像的分析可以获得片面的预后信息,再结合大数据提供的实验室组学数据,将临床特征与预后状态通过算法进行联系,最终得出准确度高的预后预测系统,为临床医师提供诊治意见。TNM分期系统是国际上最为通用的肿瘤分期系统,被认为是确定各类癌症预后和最佳治疗方案的全球标准,并被临床医师和研究人员广泛使用。Gupta等利用了CRC的TNM分期结合随机森林算法(random forests,RF)预测患者5年内的无病生存期,准确率可达84%。Reichling等基于大量病理切片构建了AI模型,配合大数据分析进行Ⅲ期CRC预后与CD3、CD8免疫浸润的关系研究,在面对大量临床数据时,使用AI模型辅助可以更为有效地帮助病理科医师确定Ⅲ期CRC患者的预后情形。

数字病理图像可应用于各个领域,如临床远程判读、大数据、图像检索、模式识别技术、计算机应用和AI技术等。AI模型可以对数字病理图像内的目标物或区域进行特征提取和定量分析,并转变为高保真度、高通量的数位化数据。AI模型能以迅速、标准化的方式对感兴趣区域目标进行标识勾画、色泽渲染、位置识别及分型分类等,并以结构化的文字语言发出提示,达到辅助病理科医师的作用,如提高诊断效率、减轻工作量、改善医疗工作环境等,最终达到降低误诊率和漏诊率的临床目的。DP通过AI技术可以对病理切片图像中的组织细胞进行识别,判断其良恶性程度。Kainz等在肠道肿瘤的HE染色图像中使用两种不同的CNN分类器模型对图像进行分割识别,良恶性诊断准确率可达95%~98%。Chen等在CRC活检病理图像中应用ILMCAM模型架构,成功将肠道活检病理良恶性诊断准确率提高至99%。

(五)AI在CRC分子分型与药物研发的应用

AI中的算法如SVM或RF都是在进行药物探索过程中所建立的算法,而基于深度学习的神经网络算法能为药物的属性预测提供新的研究方法。AI的多任务学习特性可以同时查阅多项研究文献和组学数据,并且不会局限于定式的范围里探索,能发现不同于人类认知的研究路径和创新点位。多任务学习的优势在于药物相关属性的预测受益于联合多元学习,从前期研究、靶点发现、化合物合成、化合物筛选、晶型预测、新适应证发现到受试者招募等研发环节,是一项多维度的数据优化过程,而AI技术能有效地从大量交叉数据及分析环境中筛选出合适的目标化合物。随着分子病理学及个体化治疗的发展,CRC的诊断和治疗进入了分子分型水平。Guinney等使用RF结合CRC患者的基因组数据,初步形成了目前CRC的共识分子亚型(consensus molecular subtype,CMS),包括CMS1(免疫型)、CMS2(经典型)、CMS3(代谢型)及CMS4(间质型)等4个亚型。Popovici等应用深度卷积神经网络模型成功地从常规HE染色的组织学图像中识别出了CRC的分子亚型。深度学习中的卷积神经网络具有从输入数据中进行特征提取和学习的能力,而HE染色图像中包含了足够的信息来预测CRC的CMS分子亚型,在HE染色图像中应用AI识别CRC分子亚型具有较高的临床研究及应用价值。

临床研究发现,MSI-H或dMMR型CRC患者接受新辅助化疗的治疗效果较差,MSI/MMR伴随检测已经是CRC临床病理诊断的常规项目之一,用于筛选不同免疫治疗模式的敏感人群。Echle等开发了一种深度学习系统,使用HE染色载玻片检测携带dMMR或MSI的CRC标本来训练AI系统自动检测,该系统经训练后的验证特异度达67%,灵敏度达95%,检测效果较佳。Yamashita等运用深度学习模型,在预测HE染色CRC数字图像中的MSI方面超过了经验丰富的病理科医师,该模型可作为一种自动筛查工具,在MSI/MMR检测时对患者进行分流,从而节约了大量检测相关的医疗资源和人力成本。

(六)当前AI在CRC诊疗中存在的应用问题

当前医学AI的研究成果在临床转化应用方面所面临的主要问题在于临床数据量的不足及神经网络架构过于复杂而无法应用于一般医疗场景,需要使用特定、高效且昂贵的硬件设备才能运行。而在深度学习研究中,研究者面临的最大问题点在于数据标注质量的参差不齐和数据量的严重短缺。上述条件限制了AI模型的性能以及临床上广泛应用的可能性。传统的深度学习架构需要数以万计经标注后的数据量来进行训练,如果数据量不足或训练集数据质量带有的噪声(noise)过多则容易产生过拟合现象,这将大幅降低神经网络的性能表现。此外,传统的深度学习网络需有大量图像或数据来支持卷积神经网络的学习,导致模型的神经网络层数加深,参数量过于庞大,进而增加硬体设备的负荷及运行效率,对计算机的图像处理器提出了更高的需求,间接影响AI的普及应用转化。如何从基础的方法学角度开始探索,剖析AI系统的构建方式,提出更新型的AI架构或模型,使之具备大规模普及应用的能力,是当前所需要克服的技术难点。

三、未来趋势及展望

CRC的诊治仍然有医疗水平及技术经验参差不齐等局限性。AI结合大数据技术在结肠镜检查影像学检查、病理检查、手术辅助、治疗方案和临床数据分析等方面均产生了广泛的应用前景,可以辅助临床医师进行CRC的筛查、诊断、治疗和预后分析,构建新型的诊疗体系。AI在图像识别、自然语言提取、药物研发、智能医疗器械开发、预后预测等方面的应用能力不断提升,在未来CRC的诊治中势必会承担更重要的任务。在提高诊断疗效的同时,还有望提高CRC诊断的准确率,突破当前CRC临床分期和疗效评估的瓶颈,提升早诊早治的临床水平,在一定程度上推动结直肠学科的进步与发展。

(丁克峰 肖乾 黄予怀)

推荐阅读

[1]MANI D R,KRUG K,ZHANG B,et al. Cancer proteogenomics:current impact and future prospects[J]. Nat Rev Cancer,2022,22(5):298-313.

[2]REEL P S,REEL S,PEARSON E,et al. Using machine learning approaches for multi-omics data analysis:A review[J]. Biotechnol Adv,2021,49:107739.

[3]YACHIDA S,MIZUTANI S,SHIROMA H,et al.Metagenomic and metabolomic analyses reveal distinct stagespecific phenotypes of the gut microbiota in colorectal cancer[J]. Nat Med,2019,25(6):968-976.

[4]CHEN F,DAI X,ZHOU C C,et al. Integrated analysis of the faecal metagenome and serum metabolome reveals the role of gut microbiome-associated metabolites in the detection of colorectal cancer and adenoma[J]. Gut,2022,71(7):1315-1325.

[5]WANG H,DIAZ A K,SHAW T I,et al. Deep multiomics profiling of brain tumors identifies signaling networks downstream of cancer driver genes[J]. Nat Commun,2019,10(1):3718.

[6]LI C,SUN Y D,YU G Y,et al. Integrated omics of metastatic colorectal cancer[J]. Cancer Cell,2020,38(5):734-747.

[7]IMPERIAL R,AHMED Z,TOOR O M,et al. Comparative proteogenomic analysis of right-sided colon cancer,left-sided colon cancer and rectal cancer reveals distinct mutational profiles[J]. Mol Cancer,2018,17(1):177.

[8]VASAIKAR S,HUANG C,WANG X,et al. Proteogenomic analysis of human colon cancer reveals new therapeutic opportunities[J]. Cell,2019,177(4):1035-1049.

[9]DARMANIS S,GALLANT C J,MARINESCU V D,et al.Simultaneous multiplexed measurement of RNA and proteins in single cells[J]. Cell Rep,2016,14(2):380-389.

[10]LEE J,HYEON D Y,HWANG D. Single-cell multiomics:technologies and data analysis methods[J]. Exp Mol Med,2020,52(9):1428-1442.

[11]CHEN B,SCURRAH C R,MCKINLEY E T,et al.Differential pre-malignant programs and microenvironment chart distinct paths to malignancy in human colorectal polyps[J]. Cell,2021,184(26):6262-6280.

[12]ZHOU Y,BIAN S,ZHOU X,et al. Single-cell multiomics sequencing reveals prevalent genomic alterations in tumor stromal cells of human colorectal cancer[J]. Cancer Cell,2020,38(6):818-828.

[13]BIAN S,HOU Y,ZHOU X,et al. Single-cell multiomics sequencing and analyses of human colorectal cancer[J].Science,2018,362(6418):1060-1063.

[14]张向阳,陈玲,赵曼.大数据挖掘和分析在健康医疗领域的应用[C].中华医学会第二十三次全国医学信息学术会议,2022:148-150.

[15]ZHANG L,WANG H,LI Q,et al. Big data and medical research in China[J]. BMJ,2018,360:j5910.

[16]LECUN Y,BENGIO Y,HINTON G. Deep learning [J].Nature,2015,521(7553):436-644.

[17]徐楷文,王培培,吴斌.AI在结直肠癌诊治中的应用[J].实用肿瘤杂志,2022,37(1):29-32.

[18]HWANG M,WANG D,WU C,et al. A fuzzy segmentation method to learn classification of mitosis[J]. IJFS,2020,22(1):1653-1664.

[19]BIBBINS-DOMINGO K,GROSSMAN D C,CURRY S J,et al. Screening for colorectal cancer:US preventive service task force recommendation statement[J]. JAMA,2016,315(23):2564-2575.

[20]URBAN G,TRIPATHI P,ALKAYALI T,et al. Deep learning localizes and identifies polyps in real time with 96% accuracy in screening colonoscopy[J]. Gastroenterology,2018,155(4):1069-1078.

[21]WANG P,XIAO X,GLISSEN BROWN J R,et al. Development and validation of a deep-learning algorithm for the detection of polyps during colonoscopy[J]. Nat Biomed Eng,2018,2(10):741-748.

[22]CHEN P J,LIN M C,LAI M J,et al. Accurate classification of diminutive colorectal polyps using computer-aided analysis[J]. Gastroenterology,2018,154(3):568-575.

[23]BADRINARAYANAN V,KENDALL A,CIPOLLA R.SegNet:a deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Trans Pattern Anal Mach Intell,2017,39(12):2481-2495.

[24]AHN S B,HAN D S,BAE J H,et al. The miss rate for colorectal adenoma determined by quality-adjusted,back-to-back colonoscopies[J]. Gut Liver,2012,6(1):64-70.

[25]REICHLING C,TAIEB J,DERANGERE V,et al. Artificial intelligence-guided tissue analysis combined with immune infiltrate assessment predicts stage Ⅲ colon cancer outcomes in PETACC08 study[J]. Gut,2020,69(4):681-690.

[26]陆崴,孙微,金银华.人工智能在结直肠癌诊断及评估中的研究进展[J].现代实用医学,2021,33(9):1126-1129. qf+OdH/r1rCxcxALirQVul4A5Xs3ub+Q1ltQlANXtsmyhOXHTGAGd5hO/4VlDsbH

点击中间区域
呼出菜单
上一章
目录
下一章
×