



生命科学的高速发展,使得人类对自身和自然界的生命形式有了更多的理解,医学的进步也使得人类能够治愈越来越多的疾病。从公元1700年到2020年,人类的平均寿命已经从35岁提高到超过70岁,并极大地降低了非自然死亡率,在这背后,种类繁多的药物居功甚伟。例如,青霉素是人类发现的第一种抗生素,在诺曼底登陆作战中得到大规模应用,有效抑制了伤员的术后伤口感染,挽救了成千上万人的生命;又如20世纪七八十年代发现的青蒿素,能够有效抑制耐药疟原虫的生长,在中国成功地治愈了成千上万的疟疾患者,基于青蒿素的联合疗法也被世界卫生组织认定为治疗疟疾的一线疗法。可以说,人类医疗水平的进步离不开新药物的发现和大规模应用。
科学技术的进步也促进了药物分子设计策略的不断更新。传统的药物设计非常依赖于经验,并具有很强的偶然性(如青霉素的发现其实源自一次操作失误)和盲目性(青蒿素是从众多候选分子中人工筛选得到的),平均需要筛选超过10000种化合物才能得到一种新药。在这一阶段,人们可能并不知道某一疾病的发病机理,也不清楚药物治疗疾病的具体过程,只能盲人摸象般,从海量的化合物中大海捞针,筛选目标药物。随着分子生物学、计算化学和计算机技术的发展,药物设计开始进入理性阶段,计算机辅助药物分子设计成为新药发现的主流方法。首先,通过识别药物作用靶点(也就是发病病因)的结构与性质,我们可以设计出可以与靶点结合的先导化合物的结构;其次,在先导化合物基础上增加或删减部分片段,并在药物分子中形成关键化学基元,使其具备干扰靶点的功能;最后,通过虚拟筛选或实验筛选,得到具备药效并符合相关标准的新药物分子。这一研究模式显著加速了新药研发的速度,但从巨大的药物空间中找到具备干扰靶点能力的分子或分子片段这一漫长过程依然制约着新药的研发进度;同时,靶点(如蛋白质)的结构解析也是一个巨大的工程,其原子水平的结构解析依赖于先进且昂贵的冷冻电镜设备;此外,基于先导化合物结构设计出的具备一定药效的分子中,能够达到毒性、溶解性等标准的分子不足10%。如何快速解析靶点结构并据此理性设计药物分子,成为药物设计的一大难题。幸运的是,人工智能技术提供了解决这些问题的新思路,并已在各大制药公司中得到广泛应用(图1-5)。
图1-5 人工智能在药物设计中的应用
一直以来,人们都在致力于利用人工智能技术实现高效、准确地识别靶点的结构,最近也是最大的一次突破发生在2020年。DeepMind公司基于人工智能技术开发了名为AlphaFold 2的程序,旨在准确快速预测蛋白质结构 [3] 。这一程序也不负众望,在2020年举办的蛋白质结构预测大赛中对大部分蛋白质结构预测的准确性达到92.4分(满分100分),预测的结构与蛋白质真实结构间只差一个原子的宽度,真正解决了蛋白质折叠这一难题。在2021年,AlphaFold 2又完成了对350 000种蛋白质结构的预测,解锁了98.5%的人类蛋白质结构。而在2022年,AlphaFold 2再次刷新公众对它的期待,完成了对超过100万个物种的2.14亿个蛋白质结构的预测,几乎涵盖了地球上所有已知蛋白质。另一方面,通过机器学习从大量数据中训练定量的结构—性质关系,人工智能程序已经能够做到从分子的结构预测化合物的溶解性、生物活性和毒性等理化性质,同时也具备预测药物—蛋白质相互作用的能力。
利用人工智能技术实现对蛋白质结构及其性质的预测,使得根据靶点蛋白质结构快速设计先导化合物成为可能。例如,华盛顿大学便利用与AlphaFold 2类似的RosettaFold人工智能程序,根据细胞膜上控制跨膜运输靶点的结构,成功设计出可穿过细胞膜的药物分子,跳过了繁复的高通量药物筛选过程,实现了根据靶点直接设计药物的巨大进步。而在此之前,计算机辅助药物分子设计则需要从数百万分子中进行层层筛选,才能得到最终的一两种药物。可见,人工智能技术的应用可以影响药物开发过程的整个生命周期,并带来“降本增效”的巨大优势。
除了根据靶点结构进行药物分子理性设计外,人工智能还可以与逆合成分析技术及自动化实验平台结合,对筛选的药物分子进行合成途径预测并交由机器人完成合成与测试,推动药物开发与合成行业从“手工时代”进入自动化和智能化时代。预测合成路径一般可以分为以下3个步骤:首先,将完整的目标分子按一定的规则拆成一群片段分子,再将片段分子继续拆解,不断重复这一过程,逆流而上,我们就得到一个从目标分子长出来的树状结构;其次,利用已有的化学反应数据训练得到机器学习模型,教会这个模型化学反应可行性、不同反应的相关性等知识;最后,利用训练好的机器学习模型,结合各种搜索算法,在树状结构中搜索出一条或几条成功率最高的合成方案。这种基于机器学习技术的逆合成分析技术可以极大地提升合成路线设计的速度。例如,上海大学一个研究团队发展了一种基于蒙特卡洛树搜索和神经网络的人工智能逆合成分析程序,用2015年前公开发表的1 240万个化学反应训练该神经网络,并用2015年后发表的新反应(不包含在训练数据内)来检验该程序预测的准确性。结果发现,该程序预测的合成路线准确度达到了与人类科学家相当的水平,并且在5秒之内便能完成合成路线预测 [4] 。这一基于大数据和人工智能的合成路径预测技术已在工业界得到实际应用,如默克公司收购的Chematica、Wiley(约翰威立国际出版集团)发布的Chemplanner系统、麻省理工学院的ASKCOS和国内的Chemical.AI等。未来这些设计工具与自动化实验技术的融合,将引发新一轮研究模式的变革,借助人工智能技术,可以将科学家从流程化和经验化的合成工作中解放出来,转而思考更有价值的科学问题。