科学意味着系统性地构建与组织知识,且将之运用于理解我们所处的宇宙;而“新科学”之“新”,关键在于模型。
各个科学领域的知识体系即将被刷新,原有的体系内将会涌现出AI模型这一崭新的知识形式。与人类科研工作者相比,AI尤为擅长理解高维度的数据,即具有大量特征或变量的数据集,能够轻松地从海量数据中探寻出结构、规律、模式、关系。那些对人类而言极为艰巨、即便耗时良久也未必能找到答案的任务(例如,从大量蛋白质序列与结构的数据中提炼出氨基酸序列折叠的内在法则,进而精确预测出蛋白质结构),对AI而言却没有那么难。有鉴于此,在新的科学智能时代,科学知识或许会由人类能理解的知识及AI模型两部分共同构成。
AI对科学研究的作用很可能会出现从工具到基石的改变。以往在科研过程中,AI通常被用于高性能计算或是数据分析;但随着AI的进化迭代,其在科学领域的地位必然会逐级提升,例如基于AI独特的存在形式来探索科学问题,甚至借助其特有的能力来发现前辈科学家从未涉足的“无人区”。
众多AI技术正在科学领域大展拳脚,如生成式AI、超大模型、多模态预训练(Multimodal Pre-trained)、干湿闭环(Dry-lab and Wet-lab Loop)、自主学习(Autonomous AI),等等,这些技术在加速科学发现方面发挥着关键作用,同时也在潜移默化地改变着科学研究的方式与进程。
更具体地说,科学智能的新机遇涵盖了多层次、多方面。例如,在技术层面,大语言模型与生成式AI可轻松处理自然语言并挖掘、整合知识,基础模型能融合多模型结构,实现多智能体协作并发挥预训练优势;在实验协同层面,湿实验室与干实验室结合,可优化实验设计并实时反馈调整;在人机交互层面,人与AI的互动可为科学家提供辅助决策和知识共享学习;在实验手段层面,实验室自动化与机器人技术可提升实验效率及精度;在探索发现层面,自主AI可用于探索未知前沿、用于发现新规律;在教育研究产业层面,大学教育与研究新时代的开启,有助于新型人才的培养、新兴产业的萌生。
生成式AI的用途绝不止于内容创作领域。的确,它可以生成文案、图片、视频,甚至是广告和短剧,可以为创作者提供更便捷的创意变现途径。但现今,越来越多的科学家开始探索如何将生成式AI及其背后的GPT大模型应用于分子生成,以催生出新型药物。也就是说,AI不仅具备颠覆互联网内容生产模式及相关生产力的潜力,还有可能在生物医药及其他科学领域发动一场改天换地般的变革。
纵观GPT在科学领域的发展态势,目前主要有两种模型,一是通过自然语言训练的领域内模型,二是通过生物数据训练的科学模型。我的判断是,未来,这两种模型将深度融合,形成更强大的生成式模型。
插件技术和工具极大地提高了GPT在实际应用中的能力。一些研究人员已在尝试将化学领域的工具设备作为插件引入GPT,使该模型能够综合调用搜索引擎、代码执行、文献检索、自动化实验等工具,以更好地完成科研任务。AI自主学习已成现实,再往前进一步,或许便是AI的自主研究。
当研究者将自动化实验室和AI模型相结合,就能够实现干湿闭环。首先,由“干实验室”发起一个实验请求,再交由模型处理。随后,模型将处理结果反馈给自动化实验室,以执行相应的“湿实验”。在实验过程中,自动化实验室会持续将实验数据反馈给AI模型,以助力模型进行优化和迭代。通过这种干湿闭环的方式,AI模型将可以更高效地开展科学研究,也能更精确地预测和改进实验结果。
AI模型还可以与药学家进行交互式药物生成。在新模式下,药学家可以根据自身专业知识对AI模型的生成效果进行评判,并适时提供相关指导与建议。这种基于药学家专业知识的AI模型生成方式称为“专家参与的循环”(Expert in the Loop)。通过这种方式,药学家的专业知识得以和AI模型的超强学习能力深度融合,进而实现高效能、低费用的药物研发与生成。
在干湿闭环和专家可控药物生成之间,还需要一个药物基础大模型来持续积累数据和知识。这个大模型基于现有数据集、知识库进行训练和优化,能实现更准确、更快捷的药物生成和研究。可以预见,当干湿闭环、专家可控药物生成、药物基础大模型三者被结合运用,AI在医学科学方面的能力将得到空前的强化,而这又会反过来为药物研发创造更多的机遇与可能性。
生物医药领域以往通过湿实验已积累大量极具价值的知识和数据,其中很多都可以被合规获取并使用,如蛋白质序列目前拥有超过22亿条数据,可购买的具备成药性的小分子则约有2.3亿。这些海量、公开的分子序列数据完全可以利用大模型来学习其语义表征,我们再将之用于药物研发任务。此外,我们还有过去数百年来无数生物学家积累的海量文献和知识图谱数据,它们都能够单独训练出一个庞大的知识表征模型,而且这些不同模态的数据里的分子信息又都相互关联,如果能将所有的信息统一压缩在一个大模型里,就能惠及未来所有的生物医药下游任务。正如ChatGPT是处理人类自然语言的大模型,我们也可以构建原子级分子语言、蛋白质语言基础模型,帮助研究者更好地理解物质与生命的底层逻辑。
蛋白质工程与抗体设计:在早期对自然语言处理课题的推究过程中,语言学家先是设计了诸多规则来建模语言,随后又引入了统计学的方法来优化软件,直至当下的生成式AI出现,才终于在自然语言处理方面达到了人类的能力层级。有趣的是,如果我们将蛋白质序列视作一种语言,就可以把蛋白质工程和自然语言处理进行比对。也就是说,以往很多基于规则的蛋白质理解或抗体设计方法都存在被AI模型增强甚至取代的可能性(见图3.1)。
小分子药物与酶设计:小分子药物种类繁多,传统的高通量虚拟筛选通常成本昂贵且耗时耗力。例如,要进行百亿规模的虚拟筛选,或许需要耗费3000年的时间和逾80万美元的成本。然而,运用AI模型便极有希望大幅加速虚拟筛选的进程,所消耗的时间可能从年缩短至秒,这样的应用前景不能不让人振奋。
图3.1 “ESM - AA”多尺度预训练模型的架构示意图
药物设计与酶设计是两个重大的课题。前者是给定蛋白质,寻找能够作用于其上的小分子;后者则是给定小分子,寻找能够催化其反应的蛋白质。将这两个课题结合起来思考就能获得很多启示。当然,AI设计小分子也面临不小的挑战,举例来说,生成的分子不能与靶点之外的蛋白质相互作用,否则会导致包括副作用在内的不良影响。而且,由AI设计的小分子往往难以合成,因为这些分子的结构复杂多样,需要经过很多的步骤才能成功合成,但这些问题既是启用AI前便可预料到的,又是肯定会被逐步优化与解决的。
新材料设计:随着柔性显示等技术的不断发展,有机半导体材料得到了越来越多的关注。其良好的成膜性质及可借助溶液加工等特点使器件的制备相较于传统的无机材料更简便,成本也更低廉,在柔性显示、传感器和可穿戴设备等多个领域具有相当广阔的应用前景。
有机发光分子的空间结构庞大,其设计往往需要综合多种因素加以考量。传统的设计方法大多依赖科研人员的经验和知识,因而很难覆盖整个设计空间。因此,利用AI进行有机发光分子的设计具有极为庞大的潜力。
今后,生物学、化学、材料科学、环境、农业等众多领域,都将实现由AI驱动的科学发现和技术创新。也就是说,科学智能势必会对亿万人的生活质量产生重大影响,还会深刻影响科学的未来。要想推进这一进程,首先需要政企学各界协力打造新的生态系统,而在这一过程中,五大支柱的构建至关重要。第一,开发和部署科学智能的开放平台与基础设施;第二,开展有关科学与AI深度融合的研究;第三,助力建设、完善全球学术网络和社区;第四,塑造世界领先的产业合作伙伴生态体系;第五,促进有利于产业发展与经济增长的孵化器及风险投资网络的快速成形。
总的来说,“AI +新科学”是一个新颖且前沿的领域。人工智能与物质奥秘的对撞为全世界的科研工作者揭示出闪现于前方的无数曼妙可能。随着我们在这一领域跋涉渐深,我们对自然世界的理解也会更透彻、更深刻。借助AI的技术手段,科研人员能够处理规模更庞大、结构更复杂的数据,探索过去未能分辨的现象和规律,进而推动新的科学发现。