大模型的通用能力、泛化能力,是以往人工智能技术所不具备的,因此更容易和产业结合,发挥商业价值。
常言道,知其然,还要知其所以然。如果要了解大模型为什么可以和产业结合并且想用好大模型,就需要了解大模型的商业化能力从哪里来。“大模型”,虽然只有短短的三个字,但其背后是一系列技术的支撑和突破。这一章将聚焦影响大模型性能以及其与业务效益相关的多个重要技术。主要分为两类:第一类与大模型训练相关,第二类与应用开发相关。
训练出一个好的大模型,一般分三个阶段:预训练、有监督微调(SFT)、人类反馈强化学习(RLHF)。
用一个简单的例子来解释这个训练过程。假设要培养一个孩子学会写好作文,大概分为三步。第一,做大量的阅读和理解,这个阶段对应大模型的预训练。经过这个阶段的学习,大模型就能开始模仿人类语法,可以顺着话头往下说。就好像家里的3岁小孩背唐诗,我们说一句“锄禾日当午”,孩子就可以接下一句“汗滴禾下土”。大数据也需要有各种用来死记硬背的数据,例如唐诗、新闻、论文、代码库等,这个数量相当于数十万人一生的阅读量。更关键的是,这部分数据必须保证符合人类价值观,需要各种预处理。第二,看范文。这个阶段对应大模型的有监督微调。例如,重点学习10篇命题作文的范文后,就能体会到这类作文的基本套路,从而写出风格类似的文章。第三,强化训练。这个阶段对应大模型的人类反馈强化学习。写完作文后,由老师评分、指导,再改进、重新写,无限循环这个过程,直到能写好作文。
第二步和第三步合在一起也被称为“指令学习”。通过这个阶段,大模型就具备了与人类对齐的价值观,以及处理各类问题的能力。
在大模型进入产业的过程中,也需要有其他技术来应对一些特定需求或加速应用开发,例如大小专家模型混合、长上下文、检索增强、智能代理等。
如果你是非技术背景,在阅读本章时也不需要担心,本章并不会过多讨论技术细节,而是有的放矢,重点关注技术的背景、基本原理、技术特点以及带来的效果等内容。
这样的出发点,可以用电力应用来做类比。当电力时代来临时,各个企业、单位、家庭、个人等并不需要从电磁感应等原理开始了解电,而只需要了解如何安全高效地使用电力。
大模型时代也是如此。就大模型应用而言,并不需要人人成为大模型底层技术的专家。
本章主要回答一个问题:大模型靠什么能力为各行各业、多个场景的业务带来显著提升并展现商业价值?