不过,尽管谷歌在大模型技术上占尽了先手,但是在模型发布上却是OpenAI抢得了先机(见图2-8)。在伊利亚·苏茨克维主导的技术路线下,OpenAI于2018年率先推出基于Trans-former架构的GPT-1语言模型,该模型凭借1.17亿参数和单向自注意力机制,通过前序词汇预测实现文本生成任务的突破。这种遮蔽后续词汇的训练策略虽限制了上下文全局感知,却意外提升了生成文本的连贯性,这一设计为后续大语言模型的迭代提供了重要参照,也显示了自注意力机制的强大。
图2-8 谷歌与OpenAI的“军备竞赛”
图片来源:安健。
面对技术制高点的争夺,谷歌团队怎肯甘居人后,GPT-1推出四个月后即推出参数规模达3.4亿的BERT模型,其双向注意力机制突破了单向建模的局限,在11项NLP基准测试中刷新纪录。值得注意的是,BERT模型采用的掩码语言建模(MLM)与下一句预测(NSP)双任务训练框架,展现了预训练模型在语义理解维度的全新可能,这种技术路线差异实质上反映了生成式与判别式模型在应用场景上的分野。
OpenAI在2019年以15亿参数的GPT-2做出战略回应,此次迭代的核心突破在于零样本多任务适应能力。相较于前代产品对特定任务的强依赖性,GPT-2通过多任务联合训练实现了跨领域的泛化迁移,这种“统一架构、多样任务”的设计理念,标志着预训练模型从专用工具向通用平台的进化。值得关注的是,参数规模增长带来的性能提升和边际效应开始显现——尽管GPT-2参数量较BERT模型提升340%,但其在不同自然语言处理任务中的表现提升并没有与参数量提升成正比,这引发了学界对“参数军备竞赛”有效性的质疑——模型的规模是不是越大越好?模型规模带来的能力提升是否也有一定的增长极限?
技术突破背后,资本运作的暗线同样值得深究。2018年,因内部理念分歧与权力斗争,马斯克负气离开OpenAI。此后,OpenAI面临研发资金紧张的局面。关键时刻,萨姆·奥尔特曼创新性地设计出有限营利架构,成功吸引了微软10亿美元的战略投资。微软CEO萨提亚·纳德拉主导的此次注资不仅解决了算力瓶颈,更将微软的Azure云平台与OpenAI的技术优势深度耦合,形成了“模型研发—算力支撑—商业落地”的闭环生态。这种产研协同模式,为后续GPT-3的爆发式突破奠定了物质基础。
2020年问世的GPT-3以1750亿参数和45 TB(太字节)训练数据重新定义了行业标准,其零样本学习能力验证了“规模扩展假说”的有效性。该模型在保留自回归生成优势的同时,通过稀疏注意力机制突破计算复杂度瓶颈,在文本生成质量、逻辑推理深度和跨模态理解等维度实现代际跨越。从技术演进规律来看,GPT-3的成功证实了当模型容量突破特定阈值时涌现能力的非线性增长现象,这也再次验证了2019年理查德·萨顿在《苦涩的教训》中所说的算力常胜:摩尔定律预测了计算能力的指数级增长,这使得计算密集型学习算法的应用成为可能;通过大规模的训练数据和模型,结合强大的算力,AI系统能够逐步逼近甚至超越人类智能。一句话,大参数、大算力、大数据依旧可以“大力出奇迹”。
虽然GPT-3于2020年发布,但其影响力在2021年持续发酵。作为回应,2021年5月,谷歌推出了LaMDA(Language Model for Dialogue Applications),这是一个专门用于对话的大语言模型。LaMDA能够进行深入、连贯的对话,理解复杂的问题并给出有逻辑的回答。LaMDA的发布引起了广泛关注,特别是在对话系统和智能助手的应用方面。
2021年10月,微软和英伟达联合发布了MT-NLG模型(大型生成语言模型),参数量达到5300亿,是当时最大的语言模型之一,这是一个针对大规模神经网络训练的开源框架,能够显著提升训练和推理的效率。微软的努力进一步推动了大模型在实际应用中的部署。
2021年12月,谷歌旗下的DeepMind公司发布了Gopher模型,这是一个具有1750亿参数的大型预训练语言模型。Gopher在多项语言理解任务中表现出色,特别是在阅读理解、自然语言推理等方面有显著优势。它标志着DeepMind在大规模语言模型上的进一步提升。
2022年11月,Meta发布了针对科学文献的专用大模型Galactica,参数规模达1750亿,它通过整合学术论文、专利等专业语料,在科研领域展现出强大的知识推理能力。
GPT-3的发布震撼了全球AI研究界,自然也包括中国。阿里达摩院作为自然语言处理领域的先行者,在2021年推出了PLUG,它是拥有260亿参数的中文文本预训练语言模型。同年,他们还发布了M6多模态模型,参数规模达到万亿级别。M6的亮点不仅在于其规模巨大,还在于其创新性:首先,其仅用480张英伟达V100 GPU就完成了训练,相比其他公司,能耗降低了80%以上,效率提升了近11倍。其次,借助阿里巴巴的商业场景,M6成为国内首个实现商业化落地的多模态大模型。阿里的布局恰恰也体现出国产大模型的特点:注重成本和性价比,强调效能和应用。
除了阿里,百度在2023年推出了新的大规模预训练模型——ERNIE 4.0;华为发布了PanGu-Alpha,一个基于Trans-former架构的大规模中文语言模型,参数量为1000亿;腾讯发布了自有的大规模预训练模型——腾讯混元大模型。
反倒是OpenAI在2021年反常地沉寂下来,当外界都在猜测OpenAI会憋出什么大招的时候,2022年底,ChatGPT的问世再次惊艳了整个世界,它实现了技术突破与社会认知的双重跨越。
ChatGPT采用GPT-3.5架构,在1750亿参数基础上引入RLHF(基于人类反馈的强化学习)。这种创新训练范式通过人类标注员对生成内容的质量评分来构建奖励模型,并指导策略优化,使模型生成的对话内容在自然性、安全性和相关性上实现质的飞跃。
OpenAI构建了全球首个对话优化专用集群,包含超过1000台A100服务器,实现每秒1.2 exaFLOPS的浮点运算能力,并通过混合精度训练技术,使实时对话响应成为可能。GPT-3.5上下文窗口扩展至4096令牌,支持10轮以上复杂对话。
然而,所有这些技术数据和复杂的术语,终究无法真正传达ChatGPT给世界带来的那种震撼感。毕竟,当我们与它对话时,我们并不关注它背后那庞大的计算能力和算法优化,而是沉浸在一场宛如与真人交流的对话中。它不仅仅能理解我们的意图,还能根据对话的上下文和情感变化,灵活地调整回答,好像是一位真正的对话伙伴。
ChatGPT的出现,仿佛是一场突破常规的科技革命——它让人类与机器的界限变得模糊,甚至有些时刻,机器的回答让我们不禁怀疑:这真的是一个程序在说话吗?这种前所未有的流畅性与自然性,真正让人类和人工智能的交流进入了一个崭新的时代。
ChatGPT推出仅5天,注册用户数就超过了100万,两个月后月活用户数突破1亿,ChatGPT成为有史以来用户增长最快的商业应用。
微软的联合创始人比尔·盖茨在自己的博客中写道:“我一生见证过两次最伟大的技术演示,一次是在1980年我看到了图形交互界面,它后来塑造了微软和PC(个人计算机)时代;另一次就是在去年(2022年),ChatGPT的出现宣告了人工智能的时代已经到来。”
谷歌发明了Transformer架构,这是深度学习领域一个跨时代的突破,极大地推动了自然语言处理技术的发展。然而,尽管谷歌在架构上的创新堪称行业领导者,但它却未能成为大语言模型(如GPT系列)的开创者,这不禁让人扼腕叹息。
为什么ChatGPT能实现如此大的飞跃?
ChatGPT之所以能实现技术飞跃,本质上是因为其作为复杂适应系统(CAS)在数据、参数和算法协同作用下产生了非线性质变。
ChatGPT的参数量从GPT-1的1.17亿激增至GPT-3的1750亿,数据规模从数十GB扩展至45 TB。这种超线性增长触发了复杂系统的“相变”——当参数突破临界阈值(约百亿级)时,模型突然展现出逻辑推理、多轮对话等能力,而这些能力并未被显式编程。
Transformer架构的并行计算特性与GPU集群的协同,使得模型能够高效处理长距离依赖关系。自注意力机制通过动态权重调整,将输入序列映射为高维语义空间,形成全局信息整合能力,这是传统的循环神经网络和卷积神经网络无法实现的。
以GPT-3为代表的大语言模型的运作可以被看作两个不同速度的过程在一起工作。首先,信息在神经网络的不同层之间迅速传递,形成一个稳定的状态,比如生成连贯的文本。其次,模型通过反向传播不断调整其参数,逐步变得适应更多任务。这两个过程的结合让模型能够快速适应新的环境,比如借助少量提示就能学会新任务。
此外,模型中的自注意力机制不仅用于提取特征,它还是一种更高层次的控制结构。当生成长文本时,模型能够动态地调整对不同位置的关注度,从而更好地理解整个上下文的逻辑。随着模型规模的扩大,这种能力将变得更为强大。
在神经网络中,连接权重的分布呈现“赢家通吃”的现象,形成了类似生物神经网络的功能模块化结构。这种结构并不是人为设计的,而是训练过程中自发形成的。
大模型通过无监督预训练,将文本映射到高维向量空间,其中相似语义的词语在空间中聚类。例如,“国王-男性+女性=女王”的向量关系,展现了模型对抽象概念的隐喻式理解,这是符号主义系统无法实现的涌现特性。
ChatGPT的飞跃印证了复杂科学的核心洞见——智能的本质是复杂系统在临界规模下自然涌现的规律。这种涌现既非完全随机,也非完全可控,而是数据、算法、硬件与社会需求协同演化的结果。未来,理解并引导这种涌现过程,将是实现可控通用人工智能的关键。
一言以蔽之,ChatGPT的智能涌现是规模法则的魔力——量变引起质变——如同人类大脑的构造,规模到一定程度便催生智能。李飞飞在其自传中对此有一段极其精彩的描述:尽管构成大脑大部分结构的神经元相对简单,但大脑也许是最能充分诠释“量变引起质变”这一公理的例子。当神经元以千亿计的数量级复制,当它们之间的连接达到10的11次方时,质变就发生了。物质变成了思维,产生了爱、喜悦、悲伤、愤怒、恐惧和欢笑,也造就了我们在科学、艺术、音乐和数学等方面的能力。
此刻,人类在前往通用人工智能的道路上终于走出了漫漫长夜。