无监督学习GPT-1: GPT-1诞生于2018年6月,以Transformer(一种利用注意力机制来提高模型训练速度的模型)为核心结构,通过自左向右生成式地构建预训练任务,然后得到一个通用的预训练模型,这个模型和BERT(一种预训练的语言表征模型)一样都可用来做下游任务的微调。
多任务学习GPT-2: GPT-2诞生于2019年,同样基于Transformer,相比于GPT-1,GPT-2采用了更多的网络参数和更大的数据集,最大模型共计48层。
海量参数模型GPT-3: 2020年5月,OpenAI发布了以Transformer为基础的NLP(自然语言处理)预训练模型GPT-3。GPT-3采用1750亿个参数,规模是GPT-2的117倍,不经过微调便可以识别数据中隐藏的含义。作为一个无监督模型,GPT-3几乎可以完成自然语言处理的绝大部分任务,诸如将网页描述转换为相应代码、模仿人类叙事、创作定制诗歌、生成游戏剧本等复杂任务。
基于人工标注数据和强化学习的GPT-3.5(ChatGPT原型): GPT-3.5是GPT-3和GPT-4之间的过渡版本,训练参数是GPT-3的10倍以上。ChatGPT还采用了颠覆式的迭代方式:人工标注数据和强化学习。其本质是加上了在GPT-3上去掉的微调步骤,从而实现在与人类互动时从反馈中强化学习。
展望GPT-4: GPT-4有可能是多模态的,支持文本、图片、视频等多种数据类型的输入。这意味着GPT-4可以根据文本提示词(prompt)生成图像,或者是可以输入视频,然后通过文本的形式回答问题。
几个月后,OpenAI将推出GPT-4,届时它的参数将比GPT3.5提升几个量级,算力需求将进一步提升。OpenAI在《AI与分析》报告中指出,AI模型所需算力每3—4个月就要翻一番,远超摩尔定律的18—24个月。未来如何利用新技术尽可能提升算力,将成为决定AI发展的关键因素。