



化学是一门在分子和原子层面上研究物质的组成、结构、性质和变化规律的自然科学,伴随人类诞生至今,成为人类认识和改造物质世界的主要方法和手段。化学学科的核心任务之一,就是利用物质变化规律,在原子层面进行分子设计并发现新物质,进而推动能源、医药、材料等领域的发展。
随着人类社会的进步,化学探索物质变化规律的方式也与时俱进,变得越来越理性、越来越智能。在原始社会和农耕文明时代,化学属于经验科学,偏重对经验事实的描述而缺少抽象的理论概括。一些众所周知的典型例子,如钻木取火、“何意百炼刚,化为绕指柔”等,都是人类在探索自然的过程中,以归纳法得到的一些经验规律。
进入工业化时代,蒸汽机、内燃机等机器的出现极大地提高了生产力,人类对于物质探索的渴望不再局限于实用性和对经验事实的描述,开始使用演绎法对众多测量结果进行理论总结和理性概括,得到一些较为普遍的抽象理论认识。在这一时期,欧洲大陆的法国化学家拉瓦锡(Antoine-Laurent de Lavoisier)提出“氧化说”,解释了燃烧现象;英国的物理学家和化学家道尔顿(John Dalton)提出“原子说”,解释了物质组成;而在遥远的西伯利亚,俄国化学家门捷列夫(Dmitry lvanovich Mendeleyev)则总结出了元素周期律,显示了各式各样元素的神奇魅力。
进入20世纪,人类对物质微观世界的认知更加深入,建立了以量子力学为代表的理论大厦。同时,技术的进步催生了第三次工业革命,人类具备了超强计算能力的“电子大脑”——电子计算机。科学家开始使用大型计算机,结合不断发展的化学理论,试图用计算机中的虚拟反应代替传统化学实验室烧瓶中的反应,更加高效地探索物质规律。化学理论与计算机科学相结合的这一趋势最终发展成为如今的理论与计算化学,并孕育出密度泛函理论、量子化学等成果。
我们已经简短回溯了化学学科发展的3个阶段,按时间先后,分别对应于计算机科学家詹姆斯·格雷(James Gray)提出的科学研究第一范式(经验科学)、第二范式(理论科学)和第三范式(计算科学)。然而,科学技术的不断发展,促使新的问题不断产生,现有的科学研究范式正面对着来自未来各方面的挑战。以20世纪以来欣欣向荣的生命科学为例,新药开发中的分子设计大致分为发现、合成-分离-测试、验证、批准与市场营销4个阶段。每个阶段都依赖于大量重复的实验尝试,因此可能需要耗费大量的时间和资源来发现一种新物质,并且成功率很低。计算模拟的加入缩短了新药开发的周期并降低了成本,但仍然难以应对愈发复杂、愈发迫切的药物设计需求。如果将新药发现的难度与寻找地外文明做比较,现有的药理活性化学空间中包含了约1060!个分子(10 2748 个),远远超过宇宙中的恒星总数(10 23 ~10 24 个)。面对这一浩瀚庞大的化学空间,无论是传统的实验探索,还是新兴的计算模拟,都是低效率、高风险的方法。科学研究第三范式已经步入了当年第一次工业革命前夕英国纺织工人的处境,幸运的是,即将有第四范式接过科学研究的接力棒。
第三次工业革命将人类带入了信息化时代,带来了数据的爆炸性增长,为以大数据和人工智能为核心的第四次工业革命奠定了基础。如今这一浪潮正在席卷这个时代的各个领域,化学学科也在全球范围内迎来数据密集型的科学研究第四范式(图1-1)。
在第四范式下,科学家正在寻求利用数据驱动的研究方式和人工智能技术,从海量的实验与计算数据中寻找科学规律,让创造新分子变得更加快速和高效。美国化学会2021年发布的《化学中的人工智能》白皮书认为,人工智能技术将在化学领域的所有学科中引领未来的发展。无独有偶,《科学》杂志也将“人工智能赋能化学发展”列为125个科学问题之一。自2015年开始,人工智能在化学领域的研究力度迅猛增长,尤以生物化学与分析化学为甚,这与药物设计与新药发现的迫切需求密切相关。通过字符串、矩阵或者图论的方法来表示分子,让计算机可以“看见”——识别分子的结构,通过人工智能预测分子的性质和原子间的相互作用,进而在庞大的药理活性空间搜索发现针对特定目标靶点的潜在药物;同时,利用自然语言处理等技术,人工智能程序可以从报道的文献中学习到各式各样的反应路径,并预测目标产物的合成途径;可以通过构建自动化工作流程,借助化学实验机器人来实现24小时不间断的高通量合成与筛选。相比之下,传统的药物研发往往需要几百人的共同协作,先设计出成千上万种分子,再通过人工进行大量的合成与测试,可能仅得到一种有效的药物分子,这是一个漫长、低效与耗时的过程,而人工智能则能帮助化学家快速到达成功的彼岸。
图1-1 科学研究范式的变革
随着第四次工业革命浪潮席卷全球,我们已然处在信息时代与智能时代的拐点。更强大的人工智能算法将提供更准确和可解释的预测模型,人工智能硬件和量子计算机的发展也将持续为人工智能提供强劲的内源动力。可以预见,人工智能+化学的科学研究第四范式将成为新的潮流,并为化学这一古老的常青树学科换上新的发展引擎。着眼于人工智能在化学中的典型应用场景和前沿领域,本章将为读者展示人工智能在化学研究中的排兵布阵,并解析其背后的原理,力求为读者提供简洁易懂的人工智能+化学的科普知识。