



化学反应是化学中最奇妙的物质与能量变化过程,其本质就是旧的化学键断裂、新的化学键形成。化学反应过程如同积木游戏一样,每一个原子或者是官能团相当于一块独特的“积木”,它们可以与其他的“积木”通过形成新的化学键的方式拼接、组合,直至形成新的形状,制造出一个新的分子。所以,化学反应的研究需要解决两个方面的问题:一是探索各式各样的原子或官能团(积木)的拼接方法与方式,以提高化学反应产物的收率和选择性;二是揭秘反应过程中不同原子或官能团(积木)是如何通过化学键连接起来的。前者可以促进我们以更低成本、更高效率来合成益于人类的分子或物质,例如药物或功能材料等。而后者将帮助人们建立化学反应的微观机理,带着理性的思维方式设计和调控化学反应,可以减少实验试错的耗费,加速新反应的发现。但是,化学反应微观过程的高度复杂性超乎我们的想象。我们以最重要的反应之一合成氨反应为例,此反应通常以3H 2 +N 2 →2NH 3 这样一个简单的通式来表达这个过程,但实际上这一个反应的发生经历了许多个基元反应步骤,涉及多个过渡态(即旧化学键没有完全断裂,新化学键没有完成形成的中间态)。我们可以将上述化学反应想象成反应物分子“翻山越岭”的过程(图1-4),目标产物的生成需要翻越很多个山岭,每翻一个山岭就是一个基元反应,每个山岭的最高点就是反应过渡态,其高度(也就是能量值)决定了一个反应的速率、反应的难易程度和反应发生所需具备的条件。同时,由于从起点出发可能会有许多个“分岔路口”(反应路径)并存,这意味着化学反应有时并不会完全按照我们期望的方向进行,而是会通过其他的路径形成副产物。多个反应步骤以及各种竞争反应路径等问题大大增加了我们设计和发现反应的难度。随着人工智能技术的蓬勃发展,结合大数据和人工智能的化学反应设计将为化学反应的研究带来新的契机。
图1-4 复杂的化学反应过程:多个反应步骤、各种竞争反应路径
在化学反应的人工智能设计方面,研究人员已经取得了一些令人瞩目的进展。一方面,可以通过发展有效的描述符(例如,分子的结构,或其他测量性质如电离能、亲核性、红外吸收峰等)建立原始化学反应数据的有效表述方式,并通过构建与反应产率、选择性等相关的机器学习模型,将其用于反应产率、选择性的预测。2018年,普林斯顿大学与默沙东公司合作开发的一套基于随机森林模型的化学反应预测算法,通过读取高通量实验数据,提取原子、分子和振动性质相关的描述符,实现了不同反应条件下碳氮交叉偶联反应产率的准确预测。这项研究意味着,化学研究人员可以通过这样一个计算工具快速确定反应是否能够产生目标产物,以及能以多少的收率获得目标产物。而在过去,通常需要消耗大量时间、人力和物力才能实现这一目标。另一方面,人工智能可以通过自动从文献学习知识,来获取原子或官能团的连接规则,以及自动规划分子的合成路线。例如,IBM公司(国际商业机器公司)将有机化学反应看作符合某种规范的新语言,从而将人工智能预测化学反应的任务归类到神经网络对自然语言的翻译。通过模仿人类大脑的学习过程,神经网络可以在学习过程中不断调整“神经元”间的连接并找到最佳连接方式,从而使得人工智能程序能够在从数十万到数百万的有机反应数据中学习到有机化学反应这门“语言”的结构和规则,进而从产物预测出所有可能的反应路径和反应物,并给出发生反应的可能性。这一人工智能程序的预测准确率高达80%。 [2]
如前所述,化学反应研究的另一研究任务是“知其然、知其所以然”,这需要对每一个反应路径进行计算研究,比较每一个路径中越过山岭所需要的能量,像放电影一样展示反应发生的“慢镜头”,帮助人们理解反应发生的机制,从而设计新反应。20世纪70年代,得益于第一性原理的理论计算模拟方法、软件的发展以及计算机算力的不断提高,我们可以通过计算机模拟来帮助洞悉化学反应的微观机制,这极大地促进了新化学反应的发现。但是,化学反应微观过程极其复杂、反应路径多,反应机理计算需要耗费大量时间。而基于机器学习辅助的反应机制研究,通过“计算+数据”的研究范式为该问题提供了一种解决途径。人们可以利用基于理论计算获得的微观反应机制,将机理研究中获得的活性和选择性的化学知识转化为人工智能可识别的定量指标,通过构建学习模型来指导新催化剂或新反应的预测与筛选。例如,研究人员利用聚合物催化剂光解水制氢的数据库进行训练得到基于梯度提升的机器学习模型,通过机器学习模型发现了影响聚合物催化剂析氢性能的4个主要因素(电子亲和能,离子化能,光学带隙,催化剂分散度),并给出了可靠的聚合物催化剂结构—性能关系;之后,该程序从6354种(超过此前相关领域报道材料的总和)候选材料里筛选出两种全新的聚合物催化剂,其光催化活性和稳定性均优于现有聚合物催化剂。可以预见,机器学习与化学研究的交叉融合,将为化学反应机理和催化剂研究注入全新的发展动力,并促使研究模式从低效率的试错法转向数据驱动的机理研究与理性设计。