作为科学智能的子集之一,人工智能+生命科学的探索开展较早、应用较深,经历了系统性的发展与实践,因此有必要专门辟出一节来介绍这一新领域的发展状况和未来机遇。
基因测序、高通量生物实验、传感器……相关技术的发展在生命科学与生物医药领域掀起了一场变革风暴,加速了这一领域的数字化、自动化进程。健康计算(Health Computing)作为一种新型智能科学计算模式,是以AI和数据驱动为核心的第四研究范式。它将极大地助力人类对生命与健康问题的探究。
第2章粗略地介绍过深度学习算法的演变情况,大体上,算法革新令AI的能力突飞猛进,但在AI能力倍速进化的同时,也须确保技术可控。特别是当我们寄望于将AI变成助力生命科学与生物医药产业腾飞的翅膀时,我们就更要以如履薄冰的心态来对待每一项创新,毕竟,无论是患者的隐私保护,还是新药品、新医疗器械的安全性,都需要以严肃、审慎的态度来直面。
在可信AI计算方面,近年来也有了不小的进展。以联邦学习(Federated Learning)为例,联邦学习主要有三种模式:一是横向联邦学习(Horizontal Federated Learning),面向具备相同特征空间但样本不同的场景,能够保证相同模态不同源头的数据之间的隐私性;二是纵向联邦学习(Vertical Federated Learning),面向样本相同但特征不同的场景,能够保证多模态数据间的隐私性;三是联邦迁移学习(Federated Transfer Learning),面向样本和特征都有部分重合的场景,结合了差分隐私和同态加密,能够保证在跨领域数据共享与模型训练过程中的隐私性。
在确保安全可控的前提下,AI正在推动生命科学与生物医药领域的连锁创新持续加速。眼下,AI在蛋白质结构预测、CRISPR基因编辑技术、抗体/TCR/个性化的疫苗研发、精准医疗、AI辅助药物设计等多方面的研究业已成为国际前沿战略级研究热点。
正是基于这样的学科发展趋势和产业背景,当下业内普遍聚焦的研究方向包括:AI增强个人健康管理与公共卫生、AI +医疗与生命科学、AI辅助药物研发、AI +基因分析与编辑,等等。
想要更好地利用AI的能力、发现生命的奥秘,就需要构建出专注于生命科学课题的AI基础设施、数据平台与核心算法引擎,用以支撑生命科学前沿的研究任务。同时,也可通过打造旗舰级公开数据集、组织算法挑战竞赛、搭建智能+生命科学的众智平台等方式,加速培养跨界人才,壮大产业生态。
AlphaFold2是智能+生命科学的一个典型成功案例。过去这些年,科学家主要依靠冷冻电镜和高精度X射线来解析蛋白质结构,但自从AlphaFold2问世后,这一过程实现了指数级的加速,彻底改变了从氨基酸序列到三维结构再到功能的研究方式。
大体上,AlphaFold2的成功要素包括两个方面。一是任务的特殊性。蛋白质结构预测可以被看作从序列到三维结构的一一映射问题,因此它是所谓的“Well-defined”(清晰无歧义)的AI问题。AlphaFold2的任务选择对后继研究者的启示在于,要找到生命科学中意义重大但又能抽象为适合AI的研究任务。二是模型的优越性。在漫长周期内,一代代学者对生命科学的钻研积累了大规模的蛋白质结构数据;而AlphaFold2的模型架构充分利用了数据驱动的端到端深度学习模型。大数据与深度模型的结合恰恰是第四研究范式的突出特点。因此,另一个启示是,在尝试进行智能+生命科学的研究时,要注重跨界破壁与第四研究范式的重要性。
显然,AlphaFold2是一个好的开端,它的成功打开了一个新的模式。蛋白质结构的精准预测为生命科学的研究者提供了高效的计算工具,也为基于AI的重大新发现创造出可能。未来,抗体、抗原的表位预测和肿瘤的精准疗法以及TCR/个性化疫苗的设计与优化都将成为重要的研究热点,并将在AI驱动的新计算模式的作用下取得一系列突破,智能+生命科学的黄金时代已近在眼前。
可以预见的是,在探索未知的过程中,还将面对许多不期而遇的科学挑战,但这也意味着,研究者有机会发现或创造出更多新的计算范式,比如本章提到的干湿融合的闭环式计算框架。一方面,AI模型将通过高通量、多轮湿实验的闭环验证和数据填充变得更加智能;另一方面,通过主动学习和强化学习等方式,AI能够主动规划湿实验的自动化执行,从而形成干湿闭环验证、迭代加速生命科学发现与产业落地应用。
如今在智能+生命科学领域,我和同伴们初步确立了以大模型为底座、干湿闭环、知识+数据双驱动的智能新药研发范式,实现了智能新药研发大模型基础平台、核心技术与产业应用的落地突破。以下是AIR几个较为典型的例子。
●团队研发的全球首个可商用多模态生物医药百亿参数大模型BioMedGPT-10B于2023年开源。同时,团队还联合开源了全球首个免费可商用、生物医药专用的Llama 2大语言模型BioMedGPT-LM-7B。
●在虚拟药物筛选方面,团队发现了一种应用于高通量小分子虚拟筛选的靶点对工具——DrugCLIP,首次实现了单机每日筛选百万亿小分子的成就,筛选结果在多类靶点上通过了生物学实验验证。不仅如此,团队还将蛋白质结构预测的虚拟数据应用于DrugCLIP,结果显示,此举同样能获得较大的性能提升。
●AI抗体设计可以显著加速并优化抗体药物研发过程,提高设计精准度,降低研发成本。此前,团队利用自主研发的智能抗体设计平台HelixonDesign,对现有COVID-19(2019新型冠状病毒)抗体展开了系统设计和优化。全新设计的抗体达到或超过了已上市的广谱中和抗体抗病毒效果。相关研究为智能抗体设计和新一代抗体药物研发提供了新的思路和范式,奠定了AI抗体设计的坚实理论和实践基础。另外,新抗体还是全球范围内首个由AI算法设计出的具有临床价值的广谱新冠中和抗体。
●智能体医院(Agent Hospital)。2024年5月,智慧医疗团队完成的论文《智能体医院:具有可进化医疗智能体的模拟医院》( Agent Hospital: A Simulacrum of Hospital with Evolvable Medical Agents )在国内外医学AI领域得到了广泛关注和讨论。就像是美剧《西部世界》中的场景,2024年11月,世界第一个智能体医院上线,首批来自21个科室的42位AI医生正式亮相,定向邀请专业人士访问医院,对AI医生的疾病诊断能力进行内部测试。智能体医院在模拟现实医院设施与流程的基础上,建立了拟人度高、分布广、类型多样的AI患者,AI医生由此能够在虚拟的医院中,通过大量高频次诊疗实践,实现超常规的成长,最终达到甚至超过人类医师的医疗能力。
近年来,AI相关技术的进展和突破可以说是接踵而至,令人目不暇接。就像火种点燃导火索一样,比某一技术的单纯进步更加重要的是,牵动其他领域协同进步、次第爆发。生命科学正是被AI深刻影响的领域之一。
以新药研发为例,以前,研发一款新药的平均周期通常为10~15年,将一种药物推向市场的成本则高达25亿美元,简而言之,周期漫长,成本高企;而AI技术的引入,能够显著加速新药研发的某些阶段。根据波士顿咨询集团(BCG)的研究,AI可以将药物发现和前期临床阶段的时间缩短25% ~ 50%,成效惊人,而且这还只是开始。
如今,不但物理世界在数字化,整个生物世界也在数字化。细胞、蛋白质乃至基因都可以用数字的方式来表达,数字化的优势之一是积累大量真实、准确的数据,由此,研究者可以用数字格式表达以往只能用模拟和实验等方法研究的细胞、蛋白质、基因,进而依托算法、算力,逐步“计算”出生命的奥秘。在这个过程中,AI能够更好地助力数据处理和分析、模拟和预测、个性化医疗、自动化实验等工作。再具体看新药研发,从靶点发现到药物筛选再到临床试验设计,都是AI的强项所在。
事实上,基因科学与信息科学存在着某种堪称“玄妙”的关联。首先,两者都涉及复杂信息的存储、传递、处理与解码。与计算机采用0和1二进制系统来编码信息相似,DNA使用A(腺嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)、G(鸟嘌呤)四种碱基来编码与传递生物信息。其次,基因表达的规则与自然语言也具有一些相似性,例如,基因表达的过程也存在着“句法结构”,特定DNA序列的功能取决于它在序列中的位置和上下文,基因表达中的一些“冗余”就类似于语言中的同义词和句法冗余,基因表达的调控方式就好比自然语言中的语气或句法结构变化等。最后,正如计算机是现实工作、生活、人际关系的数字副本与处理系统,基因可以说是生命科学的密码系统,而AI可以通过多种方式辅助人类破解密码,包括基因组分析、基因功能预测、生物系统建模、个性化医疗、基因编辑与合成生物学等等。
基于这样的认知,我们开展了GeneBERT项目。“Gene”即基因;“BERT”(Bidirectional Encoder Representations from Transformers)即基于双向Transformer的编码表示,专为理解自然语言的上下文信息而设计,是许多大语言模型构建的基础。项目名称直观地展示了团队创新的出发点——将基因与大模型两大交叉学科相结合,展开新的研究。
GeneBERT团队开发了泛化性能优秀且可迁移的多模态深度预训练模型,将建模范围扩大至基因序列的功能性非编码区,在学术层面提供了分析非编码区基因突变的新范式,有助于新药开发与基础医学相关的病理研究,为基因测序机构、医药企业和医院带来了新算法、新靶点和优化的治疗方案。以这项工作为基础的论文后来被《自然》正刊采用。
就像GeneBERT案例所展现的,从事计算机科学特别是AI相关研究的人与从事生物学、生命科学研究的人处于完全不同的专业领域。在相当长的一段时间里,这些领域的研究者都很难找到共同语言,再具体到专业知识、学术体系、研究方式,就更可以说是差异巨大。但随着AI技术的发展,我们已然打通了这些原本泾渭分明的专业领域。
我称这种打通与相融为“破壁计划”。
今后,“破壁计划”很可能会延展到更多的专业领域。就像盾构机在隧道掘进过程中破除厚壁,AI技术正在打通与其他专业领域之间的壁垒,通过结合与赋能,为其他产业带来巨变。
毫不夸张地说,生物世界正处于数字化、自动化和智能科学计算的新变革浪潮中。用计算的方法,即AI和数据驱动的第四研究范式来辅助人们探索并解决生命健康问题已成为一个重要的研究方向。今后,需要学术界和产业界共同推动生命科学、生物医药、基因工程、个人健康等各领域由孤立、开环向协同、闭环发展,如此方能实现更快速、更精准、更安全、更经济、更普惠的生命科学与生物医药创新,而这也意味着在下一个十年甚至更久的周期里,我们将面对无穷无尽的科学发展与产业创新机遇。