虽然过去人们对AGI总有各种抽象的想法,但如今,随着图像生成、代码生成、自然语言处理等AI生成技术的发展,AGI似乎已经走到了一个重要的十字路口——生成式AI是技术底座之上的场景革新,涵盖了图文创作、代码生成、游戏、广告、艺术平面设计等应用。
ChatGPT爆火,更是推动以多模态预训练大模型、生成式AI为代表的AI技术来到规模化前夜的奇点,人类对AGI的想象开始具象起来。
按照是否能够执行多项任务的标准来看,ChatGPT已经具备了AGI的特性——ChatGPT被训练来回答各种类型的问题,并且适用于多种应用场景,可以同时完成多个任务,如问答、对话生成、文本生成等。这说明,它不仅仅是针对某一特定任务进行训练的,而是具有通用的语言处理能力。因此,我们也可以把ChatGPT认为是一种AGI模型。
ChatGPT为AI的发展构建了一个完善的底层应用系统。这就类似于计算机的操作系统,计算机的操作系统是计算机的核心部分,在资源管理、进程管理、文件管理等方面都起到了非常重要的作用。在资源管理上,操作系统负责管理计算机的硬件资源,如内存、处理器、磁盘等。它分配和管理这些资源,使得多个程序可以共享资源并且高效运行。在进程管理上,操作系统管理计算机上运行的程序,控制它们的执行顺序和分配资源,它还维护程序之间的通信,以及处理程序间的并发问题。在文件管理上,操作系统则提供了一组标准的文件系统,可以方便用户管理和存储文件。Windows操作系统和iOS操作系统是目前两种主流的移动操作系统,而ChatGPT的诞生,也为AI应用提供了技术底座。虽然ChatGPT是一个语言模型,但与人对话只是ChatGPT的表皮,其真正的作用,是我们能够基于ChatGPT这个开源的人工智能系统平台,开放接口来做一些二次应用。
微软已将ChatGPT与搜索引擎Bing结合。尽管以往的搜索引擎可以用来查询导航和基本事实之类的信息,但是对于更复杂的查询,如“能否推荐马尔代夫的五天旅游行程”,一般的搜索引擎往往都没有结果,只是提供相关信息的汇总,需要人们自己在汇总的信息中寻找结果。但是人们需要查询的往往是这类问题的结果——回答这类问题正是ChatGPT的强项。有了ChatGPT助力的Bing,将在页面右侧的框中显示基于ChatGPT的结果。
除了新版Bing,微软还为Edge浏览器推出了两项新的AI增强功能——“聊天”和“撰写”。这些功能将嵌入Edge的侧边栏。“聊天”允许用户总结他们正在查看的网页或文档,并就其内容提出问题。而“撰写”则可以充当写作助手,根据一些开始提示,帮助生成从电子邮件到社交媒体帖子的文本。
总体来说,ChatGPT为AI应用提供了通用的技术底座,而基于ChatGPT系统做出的二次应用,也正是ChatGPT作为一个AGI模型的迷人之处。
除能够执行多项任务以及二次应用外,更重要的是,ChatGPT的成功证明了大模型路线的有效性,这直接打开了AGI发展的大门,让AI终于完成了从0到1的突破,开启真正的AI时代。
ChatGPT的成功,根本在于技术路径的成功。在OpenAI的GPT模型之前,人们在处理NLP时,用的都是RNN,然后加入注意力机制。所谓的注意力机制,就是将人的感知方式、注意力的行为应用在机器上,让机器学会去感知数据中的重要和不重要的部分。比如,当我们让AI识别一张动物图片时,最应该关注的地方就是图片中动物的面部特征,包括耳朵、眼睛、鼻子、嘴巴,而不用太关注图片背景中的一些信息,注意力机制的核心在于希望机器能在众多信息中注意到对当前任务更关键的信息,而对于其他的非关键信息就不需要太多的注意力侧重。换言之,注意力机制让AI拥有了理解的能力。
但“RNN+Attention”使模型的处理速度非常慢。这个只有Attention的Transformer模型不再是逐词处理,而是逐序列处理,可以并行计算,所以计算速度大大加快,让训练大模型、超大模型、巨大模型、超巨大模型成为可能。
于是,OpenAI开发了GPT,其目标只有一个,就是预测“下一个单词”。如果说过去只是遮盖掉句子中的一个词,让AI根据上下文“猜出”那一个词,进行完形填空,那么GPT要做的,就是要“猜出”后面一堆的词,甚至形成一篇通顺的文章。事实证明,基于Transformer模型和庞大的数据集这一路径,GPT做到了。
特别值得一提的是,在GPT诞生的同期,还有一种火爆的语言模型,即BERT。BERT是谷歌基于Transformer做的语言模型,是一种双向的语言模型,通过预测屏蔽子词进行训练——先将句子中的部分子词屏蔽,再令模型去预测被屏蔽的子词,这种训练方式在语句级的语义分析中取得了极好的效果。B E RT模型还使用了一种特别的训练方式——先预训练,再微调,这种方式可以使一个模型适用于多个应用场景。这使得BERT刷新了11项NLP任务处理的纪录,引发了众多AI研究者的跟随。
面对BERT的火爆,OpenAI依然坚持做生成式模型,而不是去做理解,于是就有了后来的GPT-3。
从GPT-1到GPT-3,OpenAI用了两年多的时间,以“大力出奇迹”的办法,证明了大模型的可行性,参数从1.17亿飙升至1750亿,也似乎证明了参数越大,AI能力越强。因此,在GPT-3成功后,包括谷歌在内,都在竞相追逐做大模型,参数高达惊人的万亿甚至10万亿规模,掀起了一场参数竞赛。
但这个时候,反而是GPT系列的开发者冷静了下来,没有再推高参数,而是又用了近两年时间,花费重金,用人工标注大量数据,将人类反馈和强化学习引入大模型,让GPT系列能够按照人类价值观优化数据和参数。
可以说,作为一种AGI,ChatGPT的成功更是一种工程上的成功,证明了大模型路线的胜利。
虽然基于大模型技术路线的AI生成的快速发展让人们看到了AGI的希望,但实际上,当前的AI生成依然不是根本性的突破。
我们已经知道,今天的AI生成之所以能如此灵活,就在于其庞大的训练数据集。也就是说,如果没有根本性的创新,AGI就可能会从更大规模的模型中产生。ChatGPT就是将海量的数据与表达能力很强的Transformer模型结合,从而对自然语言进行了一个深度建模。尽管ChatGPT的相关数据并未被公开,但其上一代GPT-3的整个神经网络就已经有1750亿个参数了。
虽然越来越大的模型确实让AGI性能很强,但庞大的模型也带来了一些问题:一方面,世界上可能没有足够的可用计算资源支撑AGI规模最大化。随着数据的爆发和算力的高速发展,一个高能量的世界正在诞生,而与算力同时提升的,还有对电力的需求,毕竟,发展算力是件高耗能的事情。以GPT-3为例,GPT-3的每次训练都要消耗巨量算力,需用掉约19万度电力、产生85万吨二氧化碳,可谓“耗电怪兽”。仅从量的方面看,根据不完全统计,2020年全球发电量中,有5%左右用于计算能力消耗,而这一数字到2030年将有可能提高为15%~25%。也就是说,计算产业的用电量占比将与工业等耗能大户相提并论。实际上,对于计算产业来说,电力成本也是除芯片成本之外的核心成本。
另一方面,在一些重要的任务上,大模型可能根本无法在规模上扩展,因为在没有认知模型和常识的情况下,大模型难以进行推理。Bard是谷歌版ChatGPT,而谷歌在发布Bard时,就在首个在线演示视频中犯了一个事实性错误:Bard回答了一个关于詹姆斯·韦伯太空望远镜新发现的问题,称它“拍摄了太阳系外行星的第一批照片”。这是不正确的。有史以来第一张关于太阳系以外的行星,也就是系外行星的照片,是在2004年由智利的甚大射电望远镜拍摄的。
一位天文学家指出,这一问题可能是因为人工智能误解了“美国国家航空航天局(Nasa)低估了历史的含糊不清的新闻稿”。谷歌Bard所犯的错误也强调了由人工智能驱动的搜索的一个更大的问题,即人工智能可以自信地犯事实错误并传播错误信息——它们并不“理解”自己转述的信息,而是根据概率进行猜测。实际上,不仅仅是谷歌,微软也承认ChatGPT基于聊天的服务也面临类似的挑战——如果模型只是学会了语法和语义,但是在语用或常识推理方面失败了,那么我们可能根本就无法获得可信任的AGI。