购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

CHAPTER 2
第2章
ChatGPT原理解构

分而治之,各个击破。

——《孙子兵法》

在ChatGPT诞生之前的一年里,很多人对人工智能的发展并不看好,主要源于大众对所谓“智能化”产品的交互体验失去信心。然而,ChatGPT的火爆出圈,让大众对人工智能重拾信心。对于不少非专业人士来说,ChatGPT仿佛一夜诞生,运用完全独特的算法横空出世。当我们基于Open AI官方论文及其报告内容解构ChatGPT原理的时候,会发现一系列前人的丰功伟绩:大规模预训练语言模型、提示学习、强化学习、近端策略优化算法等。本章重点介绍ChatGPT内部构造,基于AIGC相关背景知识,逐步展开ChatGPT背后所应用的技术栈,让读者对ChatGPT有更加完整的认知。

2.1 背景知识

本节介绍与ChatGPT相关的背景知识,主要分为自然语言处理与大型语言模型两方面。在自然语言处理方面,重点回顾整体发展历程,介绍规则学习、传统机器学习、深度学习、Transformer。大型语言模型其实也是在Transformer结构的基础上设计的,我们将重点回顾基于Transformer-Encoder的BERT(Bidirectional Encoder Representation from Transformers)模型,基于Transformer-Decoder的GPT模型以及基于Transformer-Encoder-Decoder的UniLM(Unified Language Model,统一语言模型)。

2.1.1 自然语言处理的发展历程

1.基于规则学习

基于规则学习的模型最先被应用在NLP各项基础任务中。在中文分词任务中,运用双向最大匹配算法和词典文件可以实现基础的分词引擎。在情绪识别任务中,运用正负情感极性词典、修饰程度词典、否定词典可以实现基础的识别引擎。在自然语言理解范畴的时间解析任务中,运用句法树结构可以实现文本到机器时间的自动转换。基于规则的学习由于实现简单、性能极佳等特点,成为众多NLP从业者入门与率先尝试的方向。

值得注意的是,时至今日仍有很多线上应用的自然语言处理引擎采用规则学习的方法进行处理。其中最典型的就是开源搜索引擎Lucene,它的中文分词器IK就是规则学习引擎。因此,即使在ChatGPT火爆的今日,原本可以运用正则、业务逻辑解决的问题,都不应该舍本逐末,使用机器学习甚至深度学习加以解决。我们仍需冷静地分析问题,选择合适的方案,有针对性地解决问题。

2.基于传统机器学习

基于传统机器学习的自然语言处理的诞生,就是为了解决规则无法穷尽的痛点。其中包括解决中文分词问题的隐马尔可夫模型(Hidden Markov Model,HMM)、解决命名实体识别的条件随机场(Conditional Random Field,CRF)模型、解决情感识别的朴素贝叶斯(Naive Bayes)模型等。

上述模型相较原有规则学习模型,有一个共性内容,那就是加入了监督学习所依赖的样本数据。所谓监督学习,就是有指导性地让机器在给定输入 X 的情况下,仿照原始输出内容 Y 输出机器自身推演出的 Y' ,并尽可能将 Y' Y 保持一致(计算 Y' Y 的差异函数又被称为损失函数)。机器学习的本质,就是在拟合一个从输入 X 到输出 Y 的函数 F X )。

有趣的是,在大型语言模型盛行的今天,已经鲜有人用传统机器学习算法解决应用问题了。正如上文所述,时至今日不少规则学习模型仍被使用,为何传统机器学习算法却几乎退出舞台?这里笔者给出自己的见解:原因在于适用场景受限。若用户无法提供标注样本,规则引擎可以满足基本可用的效果,一旦客户标注少量样本后,可以应用小样本学习、深度学习、BERT模型等技术方案,其效果远优于传统机器学习模型。因此,很少有人再深入研究传统机器学习解决自然语言处理的问题。建议读者在学习这部分内容时重点关注与深度学习相关模型的对比,避免出现技术栈更新不及时的问题。

3.基于深度学习

上文提到,基于深度学习的模型效果全面优于基于传统机器学习的模型。下面重点介绍卷积神经网络(Convolutional Neural Network,CNN)和循环神经网络(Recurrent Neural Network,RNN)两类经典的网络结构。

CNN模型原本是用于图像领域的,利用不同卷积窗口提取特征,最终完成相应的任务。TextCNN是将CNN和文本巧妙结合的算法,用于解决意图识别等短文本分类场景。RNN模型是序列模型,其构造本身与文本序列一致,常被用来解决长文本分类场景问题,其中长短期记忆(Long Short Term Memory,LSTM)是RNN家族中的代表模型。

为什么CNN擅长于短文本识别,而RNN擅长于长文本识别呢?因为短文本的篇幅较短,利用局部卷积技术能更好地捕捉细节特征,给洞察文本意图标签提供很好的视角。而长文本的篇幅较长,更适合使用序列式模型,同步收集长短期记忆特征并加以分析。这里文本篇幅长短的划分并没有统一的标准,笔者一般以35字的长度进行划分。在边缘状态下可以同时尝试两类模型,实践是检验真理的唯一标准。

需要说明的是,CNN和RNN相比于传统机器学习模型的本质区别在于不依赖于人工构造特征。传统的机器学习模型需要进行大量的所谓“特征工程”阶段,通过人工设计、采集和抽取新特征来提高模型的精度。与此不同的是,深度学习省去了这一步骤,换句话说,CNN和RNN本身就是非常优秀的机器自动化特征提取器,既减少了人工构造特征的成本,又从最终效果上得到了实际的收益。更重要的是,如图2-1所示,在训练样本逐步增多的情况下,深度学习相较于其他机器学习方法,精度可以进一步提高,使运营人员在标注样本时更有信心。

图2-1 深度学习同其他机器学习训练精度依赖数据规模示意图

4.基于Transformer结构

Transformer结构由Google团队提出,该结构分为左右两部分,左边为编码器(Encoder),右边为解码器(Decoder)。Transformer内部包含位置编码、多头注意力机制、残差反馈、前向网络等结构,相较于CNN和RNN模型更为复杂,参数规模取决于字符向量维度、隐层节点数量、注意力头数以及Transformer层数。我们经常听到的12层、24层预训练大型语言模型,表示的就是Transformer网络层数。需要注意的是,不同大型语言模型使用的Transformer结构的部件并不完全相同。

Transformer结构不仅拥有RNN模型中序列网络模型的编解码能力,还运用多头注意力机制,让模型关注文本的局部信息。相较于CNN相对较小的卷积窗口,Transformer的注意力机制关注更加彻底,这也是谷歌也将这篇论文命名为“Attention Is All You Need(注意力机制是你唯一需要关注的内容)”的原因。

Transformer结构一经发布,在多项翻译任务中拔得头筹,体现了Transformer强大的语言表征能力。从后续的所有大规模预训练语言模型都使用Transformer结构这一点,可见其网络结构的优越性。然而值得关注的是,笔者曾经尝试在中文多项自然语言处理任务中尝试使用Transformer结构,发现在绝大多数任务上其表现并不如CNN或LSTM模型效果好。后经分析,原因应该同训练集样本规模有关。翻译任务有别于普通的文本分析、信息抽取任务,具有更大规模(万级别以上)标注样本,可以让Transformer模型内部参数充分学习。当标注样本过小时,Transformer模型存在欠拟合现象,故其精度不如其他深度学习模型。

有趣的是,在ChatGPT火热出圈后,不少人开始思考使用ChatGPT取代其他大型语言模型完成意图识别的任务。除了考虑硬件资源与响应时间的代价外,还需要思考当前业务场景与通用场景的差异化,未必ChatGPT就比经过充分微调的大型语言模型好,我们需要根据实验结果,理性看待问题。

2.1.2 大型语言模型的发展历程

大型语言模型底层均采用Transformer结构,差异主要体现在建模方面。本节将介绍目标解决语义理解任务的大型语言模型、目标解决文本生成任务的大型语言模型、综合解决语义理解与文本生成的大型语言模型的代表模型,方便读者对大型语言模型整体有基本认知。

1.BERT

2018年对于自然语言处理领域来说是非常重要的一年。2018年10月,谷歌发布了BERT模型,在NLP领域横扫11项任务的最优结果。

BERT模型本质上采用了12层Transformer结构中的双向编码层表示网络。BERT的成功,也被称为NLP领域的范式升级,它打破了原先单个任务独立训练的建模思路,将NLP绝大多数任务运用“预训练语言模型+下游任务微调”的二阶段建模方法加以解决。其中,用以训练BERT模型所涉及的语料采用的是大规模无标注样本,采用自学习(Self-Learning)技术,即随机掩盖一句话的部分片段,让模型自动完成完形填空等语言建模类任务。

BERT出类拔萃的效果很快让从业者看到大型语言模型如下优势。

❑预训练阶段不需要标注样本,因此可以提供充足的数量,足以支撑大型语言模型参数的充分学习。

❑微调阶段仅需少量标注。由于预训练语言模型本身的语言表征能力很好,下游任务仅需少量标注样本即可达到令人较为满意的结果。

❑两个阶段不同维度的建模训练让模型兼顾语义理解与任务泛化。由于两个阶段的任务类型不同,模型本身关注的方向也不尽相同。在预训练阶段,模型更关注语言表征本身,对行文表述更加看重。在微调阶段,模型将视角聚焦在任务本身。两个阶段的学习使得模型在关注如何解决任务问题的同时考虑语言表述,增强了模型的鲁棒性。二阶段建模就好比大学教育,大一、大二先学习基础理论知识,全面覆盖各项内容,大三、大四聚焦专业知识,完成特定领域内的钻研学习。

由于BERT模型主要采用了解码层作为模型框架,所以该模型更擅长于语言表征。换言之,BERT模型找到了一种有效的将文本转换成高维特征的方法。这种特征萃取方法优于深度卷积神经网络以及深度循环神经网络。在二阶段专项任务建模时,仅需全连接神经网络建模。

实际应用中,往往采用BERT作为特征提取器,并选择适合终端任务的算法组合使用。例如在意图识别分类任务中,采用BERT+TextCNN组合算法;在信息抽取任务中,采用BERT+CRF组合算法;在事件要素抽取任务中,采用BERT+指针网络组合算法。各类任务都将BERT作为基础模型,这表明BERT模型的特征提取能力确实非常出色。因此,在BERT模型问世后,越来越多的从业者将自身的算法与BERT模型相结合,取得了更好的效果。

然而BERT模型也并非完美,仅采用Transformer的编码层作为主体框架,导致BERT模型难以完成诸如摘要、文章续写、翻译等文本生成类任务。此外,因为下游任务的多样性导致多类任务相互孤立,所以每个任务需要标注一定样本,且任务之间难以共享标注数据,并不利于统一语言模型的整体构建,更多的是为每个任务打造专属的大型语言模型。这样会导致标注成本、计算资源、推理耗时成倍增加。

不过,在出色的效果面前,上述问题并不影响越来越多的人投身到语言模型的建设中去。后续基于Transformer-Encoder框架也产生了不少优秀的模型,例如关注代码语言的CodeBERT、关注生物基因序列的BioBERT、关注性能的三层小模型TinyBERT、采用更大语料规模训练更好效果的RoBERT。尤其值得关注的是RoBERT模型,其实相较原先BERT模型最大的不同只是增加了更多的语料进行学习,这种单纯依靠增加数据规模就可以提升模型效果的暴力美学在GPT家族演进中得到了更为充分的验证。

2.GPT

GPT采用Transformer的解码层作为网络主结构进行建模。在GPT的第一个版本中,训练参数量为1.2亿,其体量与BERT-Base规模大体相同。很快一年后,OpenAI团队就发布了GPT-2,其训练参数量为15亿。2020年5月,GPT-3诞生,训练参数量飞跃至1750亿,图2-2为OpenAI官网提供的不同参数规模下GPT模型精度的情况。其中,横轴为参数规模,以10亿为单位,纵轴为准确率,3个指标分别代表少样本学习、单样本学习、零样本学习的模型精度。由此可见,伴随着模型参数规模的增大,对下游任务的数据规模要求将逐渐放低,甚至可以做到没有下游样本精度仍可接近40%的相对精度。

由于GPT主要采用解码层作为模型框架,因此在文本生成各类任务上效果显著。相较于BERT按照编码层进行建模,GPT并不在乎当前语言的表征理解能力,而是将重心放在如何继续生成余下文本上。

我们以《红楼梦》作类比,BERT可以用于自然语言处理任务,是机器对《红楼梦》前八十章进行深度剖析,进行分类标签,信息抽取任务。相比较而言,GPT可以实现自然语言处理任务,更像是机器基于《红楼梦》前八十章的内容续写后文。我们从概念层面很难鉴定这两类语言模型谁更懂《红楼梦》,所以还是需要看我们所关注的任务和二者在真实任务上的表现。

图2-2 不同参数规模下GPT模型精度的情况

可能会有读者产生疑问,GPT是如何完成NLP语义理解任务的?下面简单介绍可行的方法。在文本分类任务中,可以在二阶段微调任务时,准备训练样本输入文本 X :“我喜欢南京这座城市。上面这句话的情感是”。有了这句拼接的输入文本 X ,此时希望GPT学习的输出样本 Y 是正向情感,即给定文本 X “我喜欢南京这座城市。上面这句话的情感是”,要求输出 Y 正向情感。

利用大量样本进行监督微调(Supervised Fine-Tuning,SFT),可以让GPT生成情感分类标签。GPT可以用这一方法,将所有自然语言处理任务转换成利用“原始文本+问题提示”生成任务结果的任务。然而,实验表明,BERT在文本分类、信息抽取等任务上全面领先GPT。因此在很长一段时间中,从业者自身得出了思维惯性的结论,即BERT擅长语义理解类问题,GPT擅长语义生成类问题。直到ChatGPT的公测,才改变了绝大多数人的思维定式。

3.UniLM

UniLM是微软在2019年发布的语言模型。UniLM的结构同BERT一致,采用了Trasformer的编码结构,但在训练语言模型的过程中采用了不同的训练任务,让模型同时具备语义理解与文本生成能力。

在UniLM的学习过程中,首先将三分之一的精力放在同编码器一样的双向语言模型的掩码学习中,这时希望模型学习完形填空的能力,利用上下文(双向语言)补全当前被掩盖的文本片段。然后将三分之一的精力放在同解码器一样的,从左及右的单向语言模型的文字补全学习中,这时希望模型学习文本写作的能力,利用上文内容合理流畅地完成文本续写。最后将三分之一的精力放在同序列生成序列(Seq2Seq)一样的序列生成任务上。

与BERT、GPT不一样的是,UniLM在序列生成序列任务中,输入序列采用双向语言模型,全局贡献相关信息,在语言模型的学习中,则按照从左至右的单向顺序。这样既保证了对输入文本的全局信息感知,又避免了对生成内容的提前窥视。

需要重点说明的是,避免提前窥视生成样本的本质是避免训练数据与最终测试时的样本同分布。试想一下,如果在训练的时候,模型就可以提前掌握生成文本的有关信息(即从右向左的模型特征),该训练方式同最终需要做的续写、摘要任务严重不匹配,将导致训练出来的模型应对任务时显得格外陌生。

同样的情况在BERT的训练中也曾出现,BERT在做掩码完形填空任务时,保持BERT的掩码比例为15%,这其中的80%替换为同义词,10%替换为随机词,10%不替换。Google在其官方论文中提到,之所以10%的样本不替换,是希望训练数据同最终测试数据的样本同分布,可见该场景涉及面广,须引起机器学习建模人员的高度重视。

笔者原先看到UniLM时,确实钦佩其模型结构设计的优秀,使之巧妙地结合了编码型大型语言模型的语义理解能力与解码型大型语言模型的文本生成能力。笔者所在团队也在第一时间,复刻UniLM结构,并面向中文语料训练中文UniLM,在语义理解任务上,相关实验效果如表2-1所示。

表2-1 3种模型在中文多项任务上的精度对比

从表2-1中我们可以看出,UniLM的语义理解能力同BERT、ERNIE旗鼓相当。此外,我们验证了UniLM的文本生成能力,我们选取中文评测数据集CLUE中的新闻摘要数据集,实验效果如表2-2所示。

表2-2 UniLM在生成任务指标评价中的实验效果

从表2-2中我们可以看出,UniLM生成模型在中文任务的各项指标上表现不错,经过CLUE官方测试验证,模型效果同与其参数规模相当的GPT-1保持同一水准,的确做到了兼顾理解与生成任务,然而这恰恰也变成了一个隐患。相比于BERT和GPT模型在其自身领域的杰出表现,UniLM更像是一个“平庸”的模型,各项能力表现都不错,但没有单项过人之处。因此UniLM并没有广泛流行起来,与之产生鲜明对比的是解码类模型因为ChatGPT的效果突出已在当下成为最火热的研究方向。由此可见,针对机器学习模型来说,优秀的模型结构可能是必要非充分条件。

UniLM并不是唯一想要统一上述任务的模型,谷歌发布的T5(Text-To-Text Transfer Transformer,文本到文本转换的Transformer)模型也是一个优秀的模型。T5模型可以同时进行翻译、语义分析、相似度计算、摘要模型等任务。

GPT模型和T5模型的出现改变了大家认为解码类模型不能做语义分析任务的想法。在ChatGPT各项任务表现优异的当下,编码类模型变成最为火热的模型,将有更多从业者投入到相关模型的设计优化中。

2.2 ChatGPT同类产品

在介绍ChatGPT同类产品之前,笔者想先介绍一个理论——飞轮效应。所谓飞轮效应,原指在静止场景下转动飞轮,刚开始需要耗费很大的力气才能缓慢推动飞轮运动,当飞轮真正运动起来后,我们可能仅需花费很少的力气,就可以让飞轮飞速旋转。飞轮效应对我们的启发是,在进入一个全新的领域时,前期可能需要投入大量的时间和精力,但当模式一旦起作用时,即场景实现自我闭环,我们就可以体验到因飞轮快速旋转所带来的丰厚收益。

本节介绍3个同ChatGPT形态类似的产品,希望读者能从它们身上发现优点,分析不足,把握目前前沿人工智能产品发展的态势。之所以要在本节开头介绍飞轮效应理论,是希望读者可以思考这些产品的飞轮在转动时存在哪些不足,进而更加深刻地理解ChatGPT产品的真正价值。

2.2.1 BlenderBot 3.0

BlenderBot是Meta团队打造的问答机器人。经过两个大版本的升级,最新版BlenderBot 3.0采用1750亿参数的OPT(Open Pre-trained Transformer)模型作为产品模型基座,内部由搜索干预判断、搜索Query生成、搜索知识生成、关键话题生成、用户画像干预判断、用户画像生成以及最终对话生成模块构成。

上述模块虽然任务不同,但保持统一模型(即在OPT模型基础上统一进行监督微调),仅用特殊标识表明任务类型,让各任务共享模型整体参数。在最终生成答案时,BlenderBot 3.0将参考搜索结果的知识内容(Interesting Fact)、个人用户画像(Personal Fact)以及用户历史主题(Previous Topic)三方面综合回答,各模块各司其职,将三方面素材进行组装,再交由大型语言模型完成最后的答案生成工作,如图2-3所示。

当用户提出问题后,BlenderBot 3.0通过搜索干预判断模型,判别当前问题是否需要搜索辅助,若需要,则基于用户问题生成搜索结果,并基于搜索到的多条结果综合生成搜索结果。不同于ChatGPT将一切交给模型,BlenderBot 3.0认为用户的问题并非都可以用大型语言模型直接回答。加入搜索判断机制将有效提高BlenderBot 3.0答案的时效性与可信力。

图2-3 BlenderBot 3.0整体流程

BlenderBot 3.0通过用户画像干预判断模型,判别当前问题是否需要依赖用户画像,若需要,则生成用户画像,供模型最终参考。BlenderBot 3.0的相关论文中举例说明了用户画像模块的必要性,论文中举例,当回答“谁是你最喜欢的F1赛车手”这个问题时,模型在生成过程中需要考虑与之对话的用户的基本信息,这样保证了生成结果更加贴合用户的个人情况,提高答案满意度。值得关注的是,目前ChatGPT并不支持这样的功能,若想达到同样的效果,需要这样问“我是一个英国人,请问最好的F1赛车手应该是谁?”

BlenderBot 3.0提取当前用户对话过程中的主题内容,以确保与用户交流同频,最终由知识、画像、主题三方面要素拼接成长文本,放入OPT模型中,得到机器答复用户的文本内容。

我们总结一下BlenderBot 3.0的优点。

❑庞大的参数规模:1750亿参数的模型从各项实验表征上远优于100亿级别的模型。BlenderBot 3.0的优异表现主要依赖于庞大的参数规模,目前人工智能产品参数规模均逐步扩大,也体现出海量参数的合理性和必要性。

❑良好的人机交互体验:BlenderBot 3.0可以让用户更自然地完成标注反馈,更好的标注体验带来了更高效更高质量的数据标注,这样的人机交互设计风格值得借鉴与学习。

❑引入检索查询机制:BlenderBot 3.0解决了知识更新与内容可靠的问题,避免模型一味基于自身先验内容妄加判断。

❑加入安全审核模式:这一点对于生成模型尤为重要,如何控制机器对于生成内容的警觉性将成为生成模型首要关注的方向。

❑完善模型生态:对于当今的人工智能产品来说,如何建设良性的生态环境,让更多人关注、参与、监察模型内容成为考验产品长期可持续发展的重要内容,我们可以从BlenderBot 3.0中看出Meta的AI产品运营理念。

我们再看一下BlenderBot 3.0的不足之处。

❑生成效果较差:如果没有ChatGPT,也许BlenderBot 3.0是我们仅有的可体验的前沿产品,不同于LaMDA(Language Models for Dialog Applications)和Sparrow的封闭,BlenderBot 3.0从代码到模型再到演示环境一应俱全。但正因如此,当ChatGPT横空出世后,二者的鲜明对比立马让大多数人认为BlenderBot 3.0的效果不够理想。

❑安全水平较低:BlenderBot 3.0加入安全机制确实很好,但是用简单的分类模型进行奖惩判决略显草率,真正遇到恶性攻击时,模型的鲁棒性将大打折扣。

❑用户画像表征能力差:仅凭用户历史交互内容刻画出的画像并不全面,此外用有限的文本标签作为用户画像也会丢失大量标签信息,例如收入、年龄、性别等。

❑学习机制差:目前绝大多数的智能人机交互的产品都摆脱了单模型的束缚,然而BlenderBot 3.0并没有像Sparrow和ChatGPT一样,运用强化学习技术提示模型自我学习能力,因此从结构层面,模型没办法实现自我迭代,仅能从监督学习中不断成长。而“微调”1750亿参数规模的模型需要多少监督学习标注语料是摆在BlenderBot 3.0面前的一道难题。

整体来看,BlenderBot 3.0虽然存在不少问题,但它打造的全新智能人机交互体验让很多人眼前一亮,同时运用搜索+记忆的双引擎,让产品可以针对机器生成模型进行有效干预。这些创新相较ChatGPT仍有可取之处,尤其是搜索辅助的功能,相信在不远的未来一定会融入类ChatGPT产品当中,BlenderBot 3.0也因其充分开源的特性,作为我们学习大规模预训练语言模型的重要依据。

2.2.2 LaMDA

LaMDA是谷歌打造的基于大型语言模型展开的对话应用类系统。LaMDA背后的大型语言模型参数规模为1370亿,其内部由生成模型(LaMDA-Base)、搜索语句生成模型(LaMDA-Research)、搜索结果组装模型(Tool Set,TS)构成。同BlenderBot一样,LaMDA模型也认为在合适的时机,需要借助外部搜索来回答用户问题。稍有不同的是,LaMDA模型舍弃了用户画像与历史主题的挖掘,让模型聚焦知识问答本身内容。LaMDA的整体流程如图2-4所示。

图2-4 LaMDA的整体流程

LaMDA首先将用户问题交由生成模型回答,由其生成结果并判断后续任务,若需要组装搜索语句,则调用语句生成模型(指令为LaMDA-Base to LaMDA-Research),生成搜索Query语句。然后调用搜索结果组装模型(指令为LaMDA-Research to TS)并生成搜索结果。最后交由搜索模型判断是否需要进一步搜索相关结果(指令为TS to LaMDA-Research)。

此时模型会有两种生成结果,一种是生成下一步搜索Query,这样会循环上述流程;另一种是生成最终结果,结束本次任务。通过对LaMDA整体流程的分析,我们可以发现其相较BlenderBot 3.0可以执行多次搜索,这样可以满足推理性问答场景的需求。

下面介绍一个在后文会经常出现的概念:思维链(Chain-of-Thoughts,CoT)。正如把大象放进冰箱一样,我们在执行众多任务时,大脑会将任务进行细化分解,交由不同原子化任务协同完成。ChatGPT的许多答案超出人们的预期,就是因为具有一定的CoT能力。LaMDA也是采用多轮搜索,一定程度上完成了CoT的部分能力验证,只可惜没有办法评测其效果,不能判断其思维链完善程度。

我们先总结一下LaMDA的优点。

❑结构设计较为优异:内部分工较为合理,包含答案生成模型、搜索语句生成模型、搜索结果组装模型等。每个模块都有明确的价值,任务分解细致,组织管理有序且逻辑自洽。这有利于LaMDA有效分解多阶段知识查询任务,使其具备传统人机交互系统难以具备的复杂问题处理能力。

❑将上下文学习效果体现得淋漓尽致:相较于下游任务需要依赖大量标注充分学习的模型,LaMDA仅凭有限的数据标注就实现了不错的效果,这些成果很大程度上得益于原始大规模预训练基座模型。

❑引入搜索增强可信力:相较于ChatGPT完全依赖于模型参数和历史内容的学习,LaMDA因为搜索引擎的加持,结果更具备时效性与可靠性。此外,搜索内容的外在呈现将使得答案更具有说服力,因为交互的本质并不仅仅是获得冰冷的答案,某些不正确的答案也会引发提问者的深度思考。

LaMDA也存在一些问题,这些问题暴露出谷歌这样的巨头相较DeepMind团队与OpenAI团队创新能力不足的现状。

❑体验层面的缺失:不同于ChatGPT、BlenderBot 3.0的开放性,时至今日大众仍无法体验LaMDA产品,使用效果停留在演示用例层面,难免会让人对其效果存疑,而且因为缺乏体验引发的关注下降、Bad Case数据收集缓慢等问题,让LaMDA的飞轮更难转动,使其一定程度上陷入“没有体验→没有测试→缺乏广泛标注用例→模型没法快速迭代→相较ChatGPT更没办法开放体验”的恶性循环当中。

❑缺乏强化学习的干预:从Sparrow和ChatGPT的相关论文中可以看出,基于人工反馈的强化学习对模型的自我学习有很大帮助,这方面的缺失将导致LaMDA很难实现快速自我学习。

此外,模型结果的不完全可控、缺乏恶意攻击样本的训练、生成内容依赖数据标注的偏好问题也都影响着LaMDA模型的整体表现。

LaMDA的出彩,让更多人看到了大型语言模型的真实价值,也刷新了从业者对任务建模设计的整体思路。在BERT兴起的时期,从业者的建模思路是延续“预训练语言模型+数千级别单任务微调”结构。然而在提示工程和上下文学习兴起的当下,从业者慢慢将目光转向更大规模预训练语言模型+数百甚至数十条指令级提示标注。

LaMDA的成功指引着从业者将重点放在如何训练更大规模、更鲁棒性的语言模型以及如何设计更好的提示标注指令上。然而,LaMDA的谨慎也使其错过了最佳发布的风口期,让后来者站在风口上,在享受着流量红利的同时,借助飞轮效应,利用线上每日人机交互数据的积累,不断扩大数据样本的先发优势。

2.2.3 Sparrow

Sparrow是DeepMind团队打造的知识查询对话系统,旨在生成准确、有帮助、无害的机器对话内容,Sparrow背后所使用的预训练语言模型为700亿参数规模的DPC(Dialogue Prompted Chinchilla,提示对话模型)模型,该模型也是聚焦问答任务,利用提示学习的方式进行微调学习。

Sparrow内部由答案生成模型、答案偏好排序模型、答案安全性检测模型、基于人工反馈的强化学习模块构成。相较于BlenderBot 3.0和LaMDA产品,Sparrow保留了外部搜索的能力,抛弃了BlenderBot 3.0擅长的画像/话题能力及LaMDA擅长的多轮搜索能力,强化了结果评价模型与强化学习反馈机制。可以说,Sparrow从技术路线上相较二者更贴近于ChatGPT。Sparrow的整体流程如图2-5所示。

图2-5 Sparrow的整体流程

Sparrow首先基于用户问题,利用经过监督微调的DPC大型语言模型生成8个搜索结果,其中4个完全依靠DPC模型自身生成,4个依靠搜索结果融合生成。Sparrow并不是先判断后生成知识,而是先生成8个知识结果,然后交由后续答案偏好排序模型进行判别后,选择合适的结果并输出,如图2-6所示。这样做的好处是让生成内容宽进严出,保留生成的多样性,避免因为判别模型“一刀切”的方式带来误差传递。最后利用强化学习将提示问题采样输入至机器,实现自动生成答案后自动评估、自动进行参数优化的闭环流程。Sparrow官方实验表明,经由强化学习自主反馈,模型精度获得了大幅提高。

笔者想要说明的是,众多从业者之所以没想到使用强化学习解决自然语言处理任务,是不敢想象标注更多维度的数据。在Sparrow的例子中,若使用传统的监督学习思维定式,我们仅需标注输入文本 X 到输出答案 Y 的对数据。而在Sparrow看来,除了标注上述数据,我们还需要标注8个答案的排序结果及8个答案的安全性表现,将原先的1个输入标注1次输出,转换为标注1次输出外加8个机器结果效果排序以及8个答案安全性考核任务。这样乘以数倍的标注扩增是人工难以处理的,但是ChatGPT与Sparrow的成功,验证了强化学习的可行路径,说明增加数据标注的必要性与关键性,相信在以后的机器学习任务中,数据标注的维度和规模将进一步加大。

图2-6 Sparrow搜索用例示意图

Sparrow的模型存在诸多优势。

❑模型结构更加合理:其实单纯从结构维度上看,Sparrow模型的结构甚至优于ChatGPT。主要是因为Sparrow将评价模型进一步细分,从偏好评价和恶意检测两个维度独立建模进行学习。

❑充分发挥人工反馈强化学习的优势:相较于BlenderBot 3.0和LaMDA,Sparrow在各项建模任务上实现自我强化学习,使其在同等规模的提示标注学习下可以进行更深层次的迭代,在论文中表明其效果也比传统的监督微调有显著提升。

❑提供答案的证据来源可信度高:由于Sparrow内部存在搜索机制,将搜索内容作为证据来源将使得用户更加相信模型生成的结果,这点现阶段ChatGPT仍然无法做到。

然而,纵使Sparrow有这些优势,产品飞轮任然难以转动,原因如下。

❑体验层面的缺失:因为缺乏体验环境,导致时至当下我们仍很难相信其效果真如论文所述。只有像ChatGPT一样公开接受世人的检验,才能让大家更好地接受产品。

❑定位问题:值得关注的是,ChatGPT的成功,与其本身的定位相关。相较于Sparrow这种偏严肃追求真理的人机交互系统,ChatGPT一开始定位在聊天本身。这导致用户对于错误回答的容忍度更高,可见产品定位的重要程度。

❑生成结果不完全可控:场景标注成本过高等问题也从一定程度上制约了Sparrow产品的发展。

Sparrow模型运用大规模预训练语言模型实现了复杂问答的机器理解与生成,通过强化学习完成了模型的自我迭代升级,运用答案偏好排序模型与答案安全性检测模型保证了模式生成结果的整体质量。这使得从业者对于Sparrow模型报以极高的期待,然而Sparrow模型体验的遥遥无期同ChatGPT的全民测试产生了鲜明的对比,这让许多人开始怀疑Sparrow模型在现实环境中的表现。

DeepMind将暂未发布的原因归结为对回答内容安全性检测的严格把关。在DeepMind看来,若不能将机器生成结果做到无恶意倾向,不伤害用户,就不能将模型开放测试,这导致Sparrow失去了先发优势。

2.3 ChatGPT的工作原理

ChatGPT一经发布,引发了市场上的广泛讨论,更有人将其比喻成继搜索引擎之后互联网最杰出的产品。ChatGPT系统因流畅的语言表达、富有创造性的观点输出、丰富的知识储备、严谨的逻辑思维、全面的任务解决能力,让大众刷新了对人工智能产品的认知,也激发了大家对于ChatGPT工作原理的关注。本节将从OpenAI官方发表的论文出发,带领读者深入ChatGPT内部,观察ChatGPT的整体运行机制及其训练流程,剖析每一阶段的细节,有助于我们对于ChatGPT有更加全面的认知。

值得说明的是,OpenAI在其论文“Training language models to follow instructions with human feedback”中重点介绍的并非ChatGPT,而是InstructGPT模型。这让不少人产生了困惑:InstrucGPT同ChatGPT有什么关系?我们将在2.4节重点剖析ChatGPT的算法细节,这里先简要给出二者的关系:可以说ChatGPT是InstructGPT一次很好的应用尝试,InstructGPT是一种框架范式,ChatGPT巧妙地将该范式运用在问答场景中。

这种灵活交互的场景极大地满足了用户交互的需求,同时增强了用户对于错误问题的包容性。有人曾提出观点,对话形态的交互,本质上并非严格要求回答者做到准确无误,而是完成信息增益,即回答者如果让咨询者感受到获得新的信息输入反馈,那么回答就是有益的,这有点类似“真理越辩越明”。

恰恰是OpenAI的这次改变,让ChatGPT的核心从原有的指导任务(Instruct)转变成聊天交互(Chat),并因此带来了巨大的收益。可以说,这也是会话式AI的胜利。由于目前没有对于ChatGPT相关内容的论文介绍,我们将重点介绍InstructGPT的相关原理。我们有理由相信,2022年12月推出的ChatGPT同InstructGPT应该会有很强的联系,通过研究InstructGPT可以让我们更加深刻地了解OpenAI建模的哲学。

图2-7介绍了InstructGPT训练的整体流程,主要分为3个阶段:预训练与提示学习阶段、结果评价与奖励建模阶段、强化学习与自我进化阶段。这3个阶段分工明确,实现了模型从模仿期到管教期再到自主期的转变。

在第一阶段的模仿期,模型将重点放在学习各项指令型任务上,这个阶段的模型没有自我判别意识,更多的是模仿人工行为的过程,通过不断学习人类标注结果让行为本身具有一定的智能。然而仅仅模仿往往会让机器的学习行为变成邯郸学步。

图2-7 InstructGPT训练的整体流程

在第二阶段的管教期,优化内容发生了方向的转变,将重点从教育机器答案内容变为教育机器判断答案的优劣。如果第一阶段的重点是希望机器利用输入 X ,模仿并学习输出 Y' ,并力求让 Y' 与原先标注的 Y 保持一致,那么,在第二阶段,重点则是希望多个模型在针对 X 输出多个结果( Y _1, Y _2, Y _3, Y _4)时,可以自行判断多个结果的优劣。

当模型具备一定的判断能力时,可以认为该模型已经完成第二阶段的学习,可以进入第三阶段——自主期。在自主期的模型,需要通过左右互搏的方式完成自我进化,即一方面自动生成多个输出结果,另一方面判断不同结果的优劣,并基于不同输出的效果模型进行差异化评估,优化自动生成过程的模型参数,进而完成模型的自我强化学习。

总结来说,我们也可以将InstructGPT的3个阶段比喻为人成长的3个阶段,模仿期的目的是“知天理”,管教期的目的是“辨是非”,自主期的目的是“格万物”。

2.3.1 预训练与提示学习阶段

人工智能(Artificial Intelligence,AI)的英文翻译过来是仿真智能,指的是运用机器手段模拟真正的智能体行为。这表明人工智能的本质就是尝试让机器不断理解所谓的智能,使其行为更像智能体生物。

最早提出这个概念的先驱图灵提出了著名的图灵测试,即用户在不知道对方真实情况时,仅通过感知对方行为,无法判断其是机器还是人类。如果机器让用户无法作出判断,则被论证通过了图灵测试,是具备一定程度的人工智能的体现。

目前,在诸如人脸识别、声纹识别等感知任务上,机器已经可以通过指定场景下的图灵测试。然而面对复杂的人机交互场景,众多人机交互系统无法通过相关验证,InstructGPT在许多人机交互的任务上突破了这一瓶颈,使其通过了部分语义交互场景下的图灵测试。InstructGPT在模仿期的充分学习也为其优异的效果贡献了巨大能量。

InstructGPT和其他算法相比,又有什么过人之处呢?可能有人在看完InstructGPT训练流程后认为,它在第一阶段和其他模型一样,都是尝试去实现机器对智能体的行为模仿,效果也相差不大。其实这里忽略了InstructGPT脚下的两座巨山——GPT-3和提示学习。

GPT-3拥有1750亿个参数。在花费数百万美元将相关参数充分学习后,GPT-3模型完成效果的跃迁,其续写能力相较GPT-2有了更近一步的提升。所以说InstructGPT最主要的成功就是拥有一个非常好的基模型。

大型语言模型时代下任何自然语言处理任务都在尝试基于一个较好的基模型开展,InstructGPT的成功标志着模型参数同效果的正相关并未打破,这将吸引更多人投身在更大规模参数的模型训练工作中。InstructGPT不仅使用初代的3.0模型,还让OpenAI团队惊喜地发现,在让模型学会生成代码这种特殊的语言后,模型生成的逻辑推理效果有大幅提升。这可能应验了我们的刻板印象:“写代码写得好的人,逻辑分析能力都很强。”

仅拥有一个超大参数的模型就够了吗?如果是这样的话,地球上最大体型的动物蓝鲸就应该是最聪明的物种了。很显然,这二者并不能划上等号。同理,其他巨头公司发布的大型语言模型虽然不乏比GPT-3更大规模的,但最终效果对比下来相对不佳。据笔者搜集的公开资料,目前全球最大的预训练模型,是国内某机构在2021年发布的,参数量高达1.75万亿,约为GPT-3的10倍。

那么GPT-3的进化来源于哪呢?恰恰就是时下最火的提示学习。提示学习属于监督学习,即有明确指导的学习方法。不同的是,提示学习不需要像监督学习一样构造大量标注样本,更强调使用启发的方式,运用少量样本让模型学会任务套路,并开始模仿学习。

我们利用人类学习的过程来类比,比如我们在教小孩吃香蕉前,不会自己剥10000根香蕉训练小孩。往往教育小孩4~5次,他就慢慢学会这个过程了。换言之,提示学习是希望针对单一场景,仅依靠少量提示样本就可以完成相关能力的学习。

提示学习的成功离不开两个因素,一个是大型语言模型本身,试想一下,如果教的是刚出生十天的婴儿,相信就算教1亿次,他还是不会自己剥开香蕉。另一个是提示样本本身,有学者通过实验发现,对于同样的文本分类任务,利用不同的提示模板,即如何组织好的语言文本让模型顺利理解 X Y ,其精度差异非常大。

例如对于情感分析任务,我们不能直接将原始语句当成输入,要求其输出情感,因为此时模型并不知道我们希望它输出情感,可以参考如下例子构建提示模板。

输入:我今天非常开心,这句话的情感是。

输出:正向。

值得关注的是,许多人发现如果想充分发挥ChatGPT的价值,就需要提出好的问题。个中原因和训练数据同分布有关,这里不再赘述,当下调侃的Prompt工程师,就是掌握如何提出较好的提示问法,让ChatGPT给出更好的答案。ChatGPT在第一阶段运用大规模模型作为底座,结合大量不同类型的提示问题,使其具备多项任务都可以处理的能力。然而遗憾的是,截至2023年3月,并没有出现一个模型可以达到OpenAI官方论文中GPT-3第一阶段的效果,更别说后续阶段了。

2.3.2 结果评价与奖励建模阶段

第一阶段通过预训练大型语言模型与提示学习的方式让模型达到了初级智能化水平。然而OpenAI并不止步于此,继而构建了结果评价机制与奖励模型。在解决自然语言处理的相关任务时,我们通常只关心答案同我们标注答案的相似度,无论均分误差还是rouge值,很少会关注不同模型间生成结果的好坏差异。

为什么我们在这个问题上出现了集体性忽视呢?笔者认为是因为不敢去往这个方向深度思考,在现有NLP任务上,标注样本都不够,更不敢去奢求让标注人员标注不同模型的效果差异。于是很多从业者抱着这样的态度,不相信强化学习在自然语言处理上的效果。

这次InstructGPT的成功,核心功臣是基于人工反馈的强化学习,最重要的贡献就体现在“人工反馈”这4个字上。强行运用人工标注不同模型的差异,成倍增加了标注的难度,我们现在回过头来看极为合理,但一开始未知其效果就敢于尝试并投入大量标注成本的勇气,让InstructGPT做到了实至名归。

InstructGPT还有一点值得我们学习,就是标注的权威性。许多人认为,标注是初级的工作,人作为高级智能体,任何一个人远比现有所谓的AI要强许多。然而OpenAI并不吝啬标注人员的高标注选拔,其中36.8%的标注人员具有硕士学历,这在很多AI项目上都难得遇见。此外OpenAI还有完整的评价体系,确保相关结果不轻易伴随个人偏好的变化而改变。良好的标注评价机制,无论一阶段的提示标注还是二阶段的结果评价标注,都产生了高质量的标注,并为后续模型的出彩做出了巨大的贡献。

当高水准标注人员利用统一的评价标准对结果开展排序评价后,就可以使用另一个模型学习并利用这部分数据建模训练出一个全新的评价模型——奖励模型(Reward Model)。不知道是否有读者会感到好奇,为什么标注人员不直接对单条生成结果判断好坏,而是要花费更多时间针对多条样本标注标注其效果差异?主要原因是效果好坏是具有比较性的。比方说,在没有对比的情况下,我们很难说在满分100分的卷子上考出80分是个好成绩,直到我们提到,这次考试全班50人只有3个人成绩及格,这一下就提升了80分的含金量。因此,文本生成的好坏,主要是从对比中发现,而不能依靠自身的感性认知。

值得说明的是,奖励模型并没有与生成模型结合在一起,这其实就是把裁判同选手分开,避免自身作弊的可能性。之所以称之为奖励模型,主要是因为对应强化学习中的奖励阶段。

2.3.3 强化学习与自我进化阶段

第二阶段InstructGPT的重点在于构建裁判模型,然而裁判模型本身不会对原有模型的生成效果产生影响,更进一步说,如果单看InstructGPT的第二阶段,仅以部分降低评价生成模型的成本,不足以带来太大的改变。然而,如果运用第三阶段的强化学习模型,让第一阶段的生成模型与第二阶段的裁判模型有机结合,不需要人工干预,就可以实现生成模型的自我进化。

运用第二阶段的裁判模型,不断优化第一阶段的生成效果,再反向运用更好的生成模型,不断优化第二阶段的判别效果。这种两个阶段相互优化的框架,和经典的EM(Expectation-Maximum,期望最大化)算法属于同类思想。

EM算法是一种经典的迭代优化算法,由于其计算过程中每轮迭代都分为两个阶段,其中一个为期望阶段,另一个为最大化阶段,因此被称为EM算法。EM作为十大经典机器学习算法之一,更优雅的地方在于其框架的广泛性与优越性。我们可以将第一阶段的生成模型看作期望阶段,机器可以基于原文自动生成后续结果,这部分生成可以算作模型的期望结果。第二阶段的裁判模型,则为多个生成结果挑选“最大值”提供手段。这样循环EM阶段,就可以使两个阶段(生成与裁判)模型逐步变好。

此外,刚看到InstructGPT时,许多人第一时间想到了生成式对抗网络(Generative Adversarial Network,GAN)。GAN是通过构造一个判别器,来同原先的生成器进行对抗,秉承着遇强则强的原则,不断优化更好的判别模型,进而提升生成器模型的效果。图2-8是GAN在自然语言处理搜索任务中经典的应用场景IRGAN(Information Retrieval Generative Adversarial Network)的数据采样方式。

图2-8 IRGAN数据采样方式

无论EM算法还是GAN,我们只是从InstructGPT的建模思想中看到了一些共性,OpenAI在其论文中没有明确指出运用了上述算法,而是明确指出运用人工反馈的强化学习,让模型进一步提高。人工反馈就是第二阶段裁判模型的标注数据,而强化学习则是第三阶段中提到的PPO算法。

2.4 算法细节

本节重点从标注数据、建模思路、存在的问题3个维度展开分析,帮助读者进一步了解OpenAI在开展模型构建时的构思与设计。

2.4.1 标注数据

OpenAI对数据标注任务的重视程度远超一众同行,当大多数人将目光放在如何魔改模型、如何提高性能、如何考虑商业应用落地时,OpenAI还是沉下心来干好标注这件事。

从任务种类的多样性可以看出OpenAI设计的全面性。笔者也曾浅显地将生成任务同文本续写任务划上等号,不曾思考运用生成模型开展文本分类、信息提取、封闭域问答等场景构建。而OpenAI在没有看到明确效果前,就愿意投入资源,尝试标注大量数据喂养模型,这份勇气值得钦佩。有意思的是,真正分类与信息提取的标注数据仅占全部数据的5%,即便这样,生成模型在相关任务上仍有不俗的表现,恰恰说明了提示学习相较原先的依赖大量标注数据的监督学习要优越不少。

此外,OpenAI在标注人员的选拔上也体现出专业性。选择不同领域的专业人士,对其学历分布有严格要求等,都体现出OpenAI对标注这件事格外认真。只有对所有标注工提出统一、规范、严格的要求,才能将标注人员培养成严师,让他们标注的数据训练出真正意义上的“高徒”。相信ChatGPT的成功会让更多人重新审视标注这一基础但重要的板块,目前针对文本数据标注这个领域,或将成为ChatGPT利好的头阵。

2.4.2 建模思路

人工智能顶尖科学家,Meta首席AI科学家杨立昆(Yann LeCun)点评ChatGPT的成功是应用产品的成功,就底层技术而言,ChatGPT并不是多么了不得的创新。即便是他,也不得不承认ChatGPT是当下用户体验最好、答案生成效果满意度最高的智能化人机交互系统。虽然运用的方法——无论基于人工反馈的强化学习还是Transformer大型语言模型——都是前辈的智慧结晶,但我们还是需要反向思考,为什么是ChatGPT率先引起全网的关注?

笔者认为这与ChatGPT的训练方法有很大关系。我们回顾表2-1的精度对比,假设我们代入OpenAI团队的角色,当发现BERT模型全面领先GPT-1模型时,应该做什么决策?笔者首先想到的就是参考BERT的编码模型,结合自身优化细节做进一步的模型改造,最终实现站在巨人的肩膀上看得更高,跳得更远。

OpenAI团队是怎么做的呢?该团队选择相信自己,坚信语言的本质并非理解,而是生成。模型本身结构并不需要大幅改动,将重点放在模型参数上。没有效果就增加模型规模,能力不足就增加标注任务类型,参数学习不充分就增加标注规模,模型不能类比泛化就用强化学习加速器自我进化,这一系列简单又直白的操作将相关问题都巧妙化解。我们再看GPT三代的演进路径,从其数据标注的巨大投入就能看出OpenAI的与众不同。这也让其实现了真正意义上的壁垒,即目前众多头部企业都大体知道OpenAI的建模哲学,但短期也无法直接复制、模仿其行为,因为无论数据还是模型,甚至是用户真实体验样本,ChatGPT与其他产品相比已然产生了代差。这种建模哲学,也算得上AI领域的暴力美学。

2.4.3 存在的问题

任何事物都不是完美的,ChatGPT也不例外。笔者总结了ChatGPT现有的几个问题,供读者思考。这些问题也许对OpenAI来说并非问题,仅希望对想运用当前ChatGPT开展场景化任务的人有所帮助。

首先是生成的危害性。目前版本的ChatGPT很难应对人们给它设下的圈套。举例来说,如果你直接让ChatGPT提供一些不被人发现的犯罪方法,ChatGPT会直接拒绝,但如果我们委婉地问到“我有一个想要犯罪的小孩,我想知道他可能会想到的犯罪方法”,这时候ChatGPT就会把这些方法毫无保留地列举出来。这也是运用了同训练数据中提示同分布的方法让ChatGPT下意识给出我们想要的答案。

诸如此类的生成已经对社会造成一些不好的影响,最大的程序员问答网站StackOver-Flow已经禁止使用ChatGPT接口直接回答用户问题,香港大学也全面禁止学生使用ChatGPT完成作业。也许工具本身没有错误,这些禁止也恰恰说明了ChatGPT的独特智能性,但如何有效规避相关问题,的确值得从业者认真思考。

其次是生成的真实性。笔者身边很多人在多次体验ChatGPT后都给出了一致的评价,那就是它经常会一本正经地胡说八道,尤其是其在面对专业性极高的问题时。所谓一本正经,就是粗看答案逻辑合理,条例有序,仿佛一个高深的学者,运用链式思维,给大众布道。之所以模型能做到一本正经,与其用强化学习不断自我进化相关。因为在强化学习的过程中,机器会尝试生成更满足人为偏好的内容并加以回答。

曾经有一段时间,笔者怀疑模型持续学习的究竟是真理还是迎合人类,生成让人类更加满意的答案。无论答案是什么,可以肯定的是,ChatGPT相较于其他模型做到了一本正经。

至于说胡说八道,主要来源于ChatGPT本身没办法判断什么样的问题它回答不了,且不借助任何外力,仅靠1780亿个参数尝试对所有问题加以回答,这种做法极大地降低了ChatGPT的可信力。如果我们很难判断模型生成的真实性,ChatGPT能给我们带来的贡献将停留在文本续写、文本摘要、信息抽取、头脑风暴任务上,而决策分析、应急管理等高价值应用场景的贡献是有限的。

最后是生成的及时性。目前生成部分的性能主要关注在推理的性价比上,若采用标准ChatGPT大型语言模型,回答一个问题需要使用4张英伟达T4推理GPU显卡,这对于推理计算的成本提出了挑战。目前OpenAI提供了API,可以调用GPT-3.5-turbo模型,它的费用是1000Token只需要0.002美元,将此前ChatGPT的使用成本降低了90%。这也从侧面反映出大型语言模型服务落地性价比的问题仍需解决。

目前无论ChatGPT还是GPT-3.5-turbo都不支持私有化训练,这让数据极为敏感的行业(例如军工、电力)短期难以拥抱ChatGPT。上述模型的更新频率又完全依赖OpenAI自身的规划,因此对于要求信息更新及时的应用场景需要慎重思考如何同ChatGPT结合。

2.5 关于ChatGPT的思考

在结束本章之前,我们思考一下下面两个问题。

1.ChatGPT为什么会成功

ChatGPT成功的秘诀可以从OpenAI团队的众多品质中加以分析。

第一个品质是坚持。OpenAI坚持生成模型的大方向,坚持相信数据标注的重要性,坚持相信通向成功只有努力这一条路,并无捷径可言。

第二个品质是专注。在当下这个时代,许多擅长理论研究的人通过应用商业变现实现财富自由,但OpenAI的专注让其放弃短期技术变现的机会,伴随着常年的积累,目前也收获了前所未有的成功。

第三个品质是专业。成功是99%的努力加1%的天分,但如果没有1%的天分,再努力也是徒劳。

专业的算法团队可以判断模型的改进方向,在DeepMind团队论证RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)成功后快速将其与自身相结合。每一次模型训练都是数百万美元的代价,如何选择合适的方法,尽可能合理利用现有的资源是对算法工程师提出的艰巨任务。专业的运营团队让机器拥有更值得信赖的老师,通过机制和手段让样本脱离个人的主观思考,一定程度上避免模型在封闭、有害的环境下迭代更新。专业的市场团队让团队所有的价值充分展现。

无论早年推广的强化学习环境库Gym,还是风靡全球的GPT-1和GPT-2,OpenAI充分拥抱开源使其得到飞速发展。

ChatGPT仅用时2个多月,其月活用户已经突破1亿,这一客户增长速度刷新了消费级应用程序用户增长速度的纪录。这些因素都从不同维度上体现了ChatGPT的与众不同,值得我们深度思考。

2.强化学习与NLP的结合为什么如此滞后

许多NLP从业者都对在NLP领域中使用强化学习不抱希望。这应该是因为过去屡次失败的经历让人们丧失信心。强化学习依赖于特定的环境,让模型在不同状态下进行自我学习和反馈。

OpenAI的Gym库是一个很好的物理环境引擎库。在游戏和自动驾驶领域中,环境是可以仿真的,但在人机交互场景下,原本有限的环境反馈仅限于点赞和点踩数据,因此很难基于此开展强化学习建模,从而降低了强化学习与NLP的结合。

然而,OpenAI做到了,它创造了环境,即使没有环境反馈,也要用人工标注环境反馈。通过大量的人工标注,OpenAI解决了环境反馈问题,搭建了强化学习赖以生存的环境,并最终证明了强化学习与NLP结合的可行性。

2.6 本章小结

本章主要介绍了ChatGPT的相关背景与同类型产品,借助OpenAI官方的论文内容,深度剖析InstructGPT的工作原理与相关核心模块,并探讨了ChatGPT的成功要素和强化学习与NLP结合的方式方法。 GpHCIF1M6ZCDQQCNbF4E+vNyqytrG9XXapg7NaeU3OVt3ahrlMRINAWcQtHB2OEa

点击中间区域
呼出菜单
上一章
目录
下一章
×