购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

二、ChatGPT为何如此强大

特别提示:本节涉及诸如大模型、小模型、Trans former、自监督学习、迁移学习、深度学习、“预训练+微调”机制、人类反馈强化学习、微调、AI对齐等众多专业术语或概念。这些在后面章节(特别是第三章)将会详细解读,这里提出的目的是让没有人工智能知识储备的读者朋友暂时了解一下它们及其之间的关系,由此建立一个初步印象。因为本节最适合将这些概念集中列出,并表明它们之间的某些重要关系,这对于后面章节的理解很有必要且很重要。

ChatGPT如此强大的原因可大致归结为两点:一是,近几年来,Transformer、自监督学习、人类反馈强化学习、微调、AI对齐等多种底层技术在自然语言处理和人工智能领域被广泛地研究、应用和更新迭代,这是基础;二是,OpenAI将众多技术巧妙地结合在一起,在有效规避了大模型未对齐行为的同时,利用了大模型带来的智能突现能力,增强了大模型的指令学习能力和用户意图捕获能力,从而造就了大模型的泛化能力。所以,ChatGPT是一个研究、资源与能力叠加、质变的产物。这不仅是个技术问题,也和OpenAI团队的综合实力有关,这里具体从三个方面来解读。

1.大模型与Transformer网络架构

支撑ChatGPT具备出色能力的技术很多,这里择要简单介绍一下大模型与Transformer网络模型。

当前,大多数人工智能是针对特定场景应用进行训练,生成的模型难以迁移到其他应用之上,属于“小模型”的范畴,而ChatGPT背后的支撑是人工智能大模型(AI大模型)。小模型的整个研发过程不仅需要大量的手工调参,还需要给机器输入海量的标注数据进行训练,这样不但成本高,而且研发效率也很低。

大模型通常是在无标注的大数据集上,采用自监督学习的方法进行训练;之后,在其他场景的应用中,开发者只需要对模型进行微调或采用少量数据进行二次训练,就可以满足下游新的应用场景的需要。这个过程也可以理解为人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF),即“预训练+微调”机制下的迁移学习方法。这样,对预训练大模型的改进就可以让下游所有的小模型受益,大幅提升人工智能的研发效率和适用场景的能力。ChatGPT就是通过这一创新方式的训练,获得了粗浅的“通用智能”而一举引爆全球的。

大模型如今已经成为业界重点投入的方向,国内如百度、阿里、腾讯、华为和智源研究院,国外如Open-AI、谷歌、脸书、微软,都纷纷推进大模型或超大模型的研究。

另外,Transformer网络模型也是ChatGPT使用的核心技术之一,它是Google于2017年提出的一种采用注意力机制的深度学习模型,可以按输入数据各部分重要性的不同,分配不同的权重,是近几年人工智能技术的最大亮点之一。Transformer大幅提升模型训练的效果,让人工智能得以在更大模型、更多数据、更强算力的基础上进一步增强能力,它的精度和性能都要优于之前流行的循环神经网络(Recurrent Neural Network,RNN) 、卷积神经网络(Convolutional Neural Network,CNN) 等模型。

Transformer不仅在自然语言处理领域表现优异,在语音、图像方面也显示了出色的性能,具有很强的跨模态能力。这也是ChatGPT博学多能的原因。

2.大模型参数与数据量的支撑

ChatGPT是在GPT-3.5的基础上训练而成,它传承了GPT系列(特别是GPT-3)的众多能力和知识。而早前的GPT模型系列本身就有较好的处理文本生成领域的各种任务的能力,比如GPT-3在文本补全、自由问答、完形填空、写作文、写摘要、写小说、写诗歌等方面都已具备了很高的水平。这里以GPT系列为例,说明一下支撑ChatGPT性能的大模型参数与数据量的大致情况。

(1)GPT-1参数量规模上亿,数据集使用了1万本书的BookCorpus ,单词量25亿。

(2)GPT-2参数规模达到15亿,数据主要来自互联网,使用了800万条在Reddit 被链接过的网页数据,清洗后的数据量超过40GB。

(3)GPT-3参数规模达到1750亿,数据集上将语料规模扩大到570GB(CC数据集,约4000亿单词),另外还包括WebText2 、BookCorpus和维基百科等平台的几乎所有数据,这些平台分别约有190亿、670亿和30亿单词的海量数据,使得GPT-3最终的数据量高达让人生畏的45TB。

由此,有人甚至夸张地说,ChatGPT除开一些先进技术、训练机制的科学组合运用之外,就是由人工标注和大数据给喂养出来的,是一个从量变到质变的过程。

3.OpenAI团队的综合实力

ChatGPT之所以成功,也与OpenAI团队的综合实力关系密切,这主要体现在他们的组织文化、项目策划、技术创新和有效的反馈机制设计与操作等方面,具体阐述参见表2-2。

表2-2 OpenAI团队四大方面的综合实力

续表 CoNOpWmCAcPjojnzX+W/q/s5tE7sTGqmdZS+ppxEEqWK+8NN9aHa1JfWh3Fuisnp

点击中间区域
呼出菜单
上一章
目录
下一章
×