购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

自动补全一切:大语言模型的崛起

就在不久前,处理自然语言对现代人工智能而言还是一件过于复杂、多变和微妙的事情。然而,2022年11月,人工智能研究公司OpenAI推出了ChatGPT(一款聊天机器人程序)。短短一周内,它的用户数量就突破了100万,人们热烈地讨论着这项技术,广为称赞。它如此实用且完美,以致有人认为它可能很快就会让谷歌搜索黯然失色。

简单来说,ChatGPT就是一个聊天机器人。但它比以往任何公开亮相的产品都更强大和博学多才。你向它提问,它会立刻用流畅的语句回答你。无论是要求它用詹姆斯国王钦定版《圣经》,还是用20世纪80年代说唱歌手的风格来写一篇文章、新闻稿或商业计划,它都能在几秒钟内按要求完成。让它写物理课程大纲、节食手册或者Python脚本,它也游刃有余。

人类之所以聪明,很大程度上是因为我们能够回顾过去并预测未来可能发生的事情。从这个意义上讲,智力可以理解为一种能力,这种能力使我们能够预测关于周围世界如何变化的可能情景,并基于这些预测采取明智的行动。早在2017年,谷歌的一小群研究人员就开始专注于这一问题的一个更具体的方面:如何让人工智能系统只关注数据序列中最重要的部分,以便准确有效地预测接下来会发生什么。他们的工作为后来的大语言模型领域的革命奠定了基础,ChatGPT正是这一领域的代表。

大语言模型利用了语言数据总是一个线性序列的特性。每个信息单元都以某种方式与同一语言序列中较早的数据相关联。模型会读取大量句子,学习其中包含的信息的抽象表征,然后基于这些信息生成关于信息走向的预测。模型的挑战主要在于设计一个算法,该算法能够“知道去哪里寻找”给定句子中的关键信息。哪些词是关键词?句子中最重要的元素是什么?它们之间是如何相互关联的?在人工智能领域,这个概念通常被称为“注意力”。

当大语言模型接收和处理一个句子时,它会构建一个内部表示,我们可以将其形象地称为“注意力地图”。首先,模型会将句子中的常见字母和其他符号组合视为一系列的“标记”,这些标记类似于语言中的音节,但实际上它们是模型为了更好地处理信息而识别出的常见的字母和符号组合块。人类以词语为单位来理解句子,但模型在处理信息时并不遵循我们的词语边界。相反,它会创建一个新的常见标记列表,并基于这些标记在海量文档中识别出语言模式。在注意力地图中,每个标记都与之前的标记有一定的关联。对于给定的输入句子,这种关联的强度反映了标记在句子中的重要性。因此,大语言模型学会了在理解句子时识别并关注那些关键的词。

以句子“明天巴西将有一场相当大的风暴”(There is going to be a fairly major storm tomorrow in Brazil)为例,模型可能会为“there”中的“the”和“going”中的“ing”创建标记,因为它们在其他单词中也是常见的组成部分。在分析整个句子时,模型会识别出“风暴”(storm)、“明天”(tomorrow)和“巴西”(Brazil)是关键特征信息,推断出巴西是一个地点,未来将有风暴发生,等等。基于这些信息,模型会预测接下来可能出现的语言标记,推断出与当前输入相对应的逻辑输出。换句话说,它会自动补全接下来可能出现的内容。

这些系统被称作“变换器”。自2017年谷歌研究者发表第一篇相关研究论文以来,这一领域的发展速度就十分惊人。没过多久,OpenAI推出了GPT-2,其中的GPT指的是“生成式预训练变换器”。GPT-2当时的规模相当庞大,拥有高达15亿个参数(参数数量是衡量AI系统规模和复杂程度的重要指标)。它是在800万页网页文本的基础上进行训练的。 14 然而,直到2020年夏天OpenAI发布了GPT-3,人们才真正开始意识到这一技术的巨大潜力。GPT-3的参数数量高达1 750亿,成为当时人类构建过的最大的神经网络,规模相比仅一年前推出的GPT-2大了上百倍。这的确令人叹为观止,但如今这样的规模已经变得不足为奇,而且训练同等级别模型的成本在过去两年中已经大幅下降为1/10。

当GPT-4在2023年3月亮相时,它再次引发了轰动。和之前的版本一样,你让GPT-4以艾米莉·狄金森的风格写诗,它会照办;你让它续写《魔戒》的某个片段,它能立刻模仿出一段与原作者托尔金风格相似的文字;你向它索要创业计划,它就能输出一份看似由一群高管共同制订的专业计划。不仅如此,它还能在各种标准化考试中脱颖而出,从律师资格考试到GRE(留学研究生入学考试),它都能应对自如。

GPT-4还能处理图像和代码、创建能在桌面浏览器中运行的3D(三维)电脑游戏、开发手机应用、调试代码、识别合同漏洞、为新药研发提供结构建议,甚至给出避免侵犯专利权的药物修改建议。它可以根据手绘草图生成网站,能够理解复杂场景中的微妙人物关系;你给它看冰箱内部的照片,它能根据冰箱里的食材推荐菜谱;你给它一份粗糙的演示文稿,它能帮你润色并设计成一份专业的演示文件。它似乎能够理解空间与因果关系、医学知识、法律条文和人类心理学。在GPT-4发布后的短短几天内,人们就利用它开发出了一系列工具,用于自动化诉讼处理、为共同抚养子女提供支持或提供实时的时尚建议等。几周内,又有人为GPT-4创建了插件,使其能够胜任创建手机应用、进行市场调研以及撰写详细报告等复杂任务。

所有这些仅仅是个开端。我们才刚刚开始领略大语言模型即将带来的深远影响。如果说DQN和AlphaGo只是在岸边轻拂的早期波澜,那么ChatGPT和大语言模型就是第一波汹涌而来的巨浪。1996年全球互联网用户数还只有3 600万,而2024年这个数字突破了50亿。这就是我们对这些工具发展速度的预期,现实可能更为惊人。我深信,在未来几年里,人工智能将如互联网般无所不在:同样触手可及,但影响将更为深远。 15 SAl4v/jE5OrEDqLDje30kUygAZLL8nid2uP4tnSZwPR5ZVq9G7QDEUIKqGi9691K

点击中间区域
呼出菜单
上一章
目录
下一章
×