写作时,时间流淌得很快。不知不觉,月已上中天,窗外灯火阑珊。
仰望苍穹,月色如水,宇宙浩瀚。每每想起人类已在月球上留下脚印,而今再度出发,就不由在心中感慨——如此有幸,能生活在这个时代。
其实,从来没有任何一种技术的突破,未经历过一次次失败,就能直接“降临”到人类的眼前。
人工智能(Artificial Intelligence,AI)技术,从诞生至今,其发展并不是一帆风顺的:盛夏与寒冬交错,期望和失望交融。
自然语言处理(Natural Language Processing,NLP)技术是如此。
ChatGPT和GPT-4亦是如此。
从N-Gram和Bag-of-Words开始,自然语言处理技术和模型在不断发展和演进,逐渐引入了更强大的神经网络模型(如 RNN、Seq2Seq、Transformer 等)。现代预训练语言模型(如 BERT和GPT )则进一步提高了 NLP 任务的处理性能,成为目前自然语言处理领域的主流方法。
这一本小书,希望从纯技术的角度,为你梳理生成式语言模型的发展脉络,对从N-Gram、词袋模型(Bag-of-Words,BoW)、Word2Vec(Word to Vector,W2V)、神经概率语言模型(Neural Probabilistic Language Model,NPLM)、循环神经网络(Recurrent Neural Network,RNN)、Seq2Seq(Sequence-to-Sequence,S2S)、注意力机制(Attention Mechanism)、Transformer、BERT到GPT的技术一一进行解码,厘清它们的传承关系。
这些具体技术的传承关系如下。
■ N-Gram和Bag-of-Words:都是早期用于处理文本的方法,关注词频和局部词序列。
■ Word2Vec:实现了词嵌入方法的突破,能从词频和局部词序列中捕捉词汇的语义信息。
■ NPLM:基于神经网络的语言模型,从此人类开始利用神经网络处理词序列。
■ RNN:具有更强大的长距离依赖关系捕捉能力的神经网络模型。
■ Seq2Seq:基于 RNN 的编码器-解码器架构,将输入序列映射到输出序列,是Transformer架构的基础。
■ Attention Mechanism:使Seq2Seq模型在生成输出时更关注输入序列的特定部分。
■ Transformer:摒弃了RNN,提出全面基于自注意力的架构,实现高效并行计算。
■ BERT:基于Transformer 的双向预训练语言模型,具有强大的迁移学习能力。
■ 初代GPT:基于 Transformer 的单向预训练语言模型,采用生成式方法进行预训练。
■ ChatGPT:从GPT-3开始,通过任务设计和微调策略的优化,尤其是基于人类反馈的强化学习,实现强大的文本生成和对话能力。
■ GPT-4:仍基于Transformer架构,使用前所未有的大规模计算参数和数据进行训练,展现出比以前的AI模型更普遍的智能,不仅精通语言处理,还可以解决涉及数学、编码、视觉、医学、法律、心理学等各领域的难题,被誉为“通用人工智能的星星之火”(Sparks of Artificial General Intelligence)。
今天,在我们为ChatGPT、GPT-4等大模型的神奇能力而惊叹的同时,让我们对它们的底层逻辑与技术做一次严肃而快乐的探索。对我来说,这也是一次朝圣之旅,一次重温人工智能和自然语言处理技术70年间艰辛发展的旅程。
因此,我为一个轻松的序章取了一个略微沉重的标题: 看似寻常最奇崛,成如容易却艰 辛 。
格物致知,叩问苍穹,直面失败,勇猛前行。
向伟大的、不断探索未知领域的科学家们致敬!
黄佳
2023年春末夏初月夜