Sora：读懂人工智能新纪元最新章节_陈根著

2.2　GPT-5呼之欲出

当许多人还没有从ChatGPT和GPT-4带来的震撼中缓过来时，GPT-5的消息已至，并被人们寄予极大的期待。

2.2.1　GPT-5何时发布

自从GPT-4发布后，关于下一代更先进的GPT模型，OpenAI联合创始人兼首席执行官山姆·阿尔特曼对外一直闭口不言。2023年6月，阿尔特曼曾表示，GPT-5距离准备好训练还有很长的路要走，还有很多工作要做。他补充道，OpenAI正在研究新的想法，但他们还没有准备好研究GPT-5。就连微软创始人比尔·盖茨都认为，与GPT-4相比，GPT-5不会有重大的性能改进。

然而，到了9月，DeepMind联合创始人、现微软公司消费者人工智能业务负责人穆斯塔法·苏莱曼，在接受采访时却放出一枚“重磅炸弹”——据他猜测，OpenAI正在秘密训练GPT-5。苏莱曼认为，阿尔特曼称他们没有训练GPT-5，可能没有说实话。同月，外媒《信息》爆料，一款名为Gobi的全新多模态大模型，已经在紧锣密鼓地筹备了。与GPT-4不同，Gobi从一开始就是按多模态模型构建的。这样看来，Gobi模型不管是不是GPT-5，但从多方泄露的信息来看，它都是OpenAI团队正在着手研究的项目之一。

11月，推特上有用户爆料，Gobi正在一个庞大的数据集上进行训练。不仅支持文本、图像，还将支持视频。有网友在这条推文下评论：“OpenAI内部员工称下一代模型已经实现了真的AGI，你听说过这件事吗？”爆料用户称：“GPT-5已经会自我纠正，并且具有一定程度的自我意识。我认识的熟人已经看过它的演示。”

12月底，阿尔特曼在社交平台公布了OpenAI在2024年要实现的计划：GPT-5，更好的语音模型、视频模型、推理能力，更高的费率限制等。此外还包括更好的GPTs、对唤醒/行为程度的控制、个性化、更好的浏览性能、开源等。

阿尔特曼还在采访中表示，GPT-5的智能提升将带来全新的可能性，超越了我们之前的想象。GPT-5不仅仅是一次性能的提升，更是新生能力的涌现。

2.2.2　预估GPT-5

尽管目前我们还没有等到GPT-5的发布，但是已经看到了OpenAI在2024年初发布了另外一个令人震撼的模型，那就是Sora。

可以说，Sora就是GPT-5的一个缩影，只是OpenAI对GPT-5采取了更加慎重的态度。当然，GPT-5面临的挑战确实很大，至少在算力层面目前还没有办法满足其进入应用级的需求。

那么GPT-5会是什么样的呢？

首先，支持更长的文本输入。目前，GPT-4的文本的输入能力已经提升到了2.5万字的水平。而之前与ChatGPT对话只能输入比较短的文本，ChatGPT也可能很快就会忘记此前聊天的内容，导致丢失上下文的关联。但是GPT-4可以支撑非常长的记忆，且能够支持非常长的文本的输入。甚至在几十轮次的问答之后，GPT-4依然能够记住我们之前给出的一些相关信息。我们可以期待GPT-5会支持更长的文本输入和更强大的记忆能力。

其次，治理“机器幻觉”。除在快速产生结果方面的表现更优秀外，GPT-5还有望在事实准确性上更胜一筹。2023年，我们已经见证了ChatGPT、Bing Chat或Bard的“胡说八道”——这在技术上被称为“机器幻觉”。

举个例子，你向ChatGPT询问：“成都是一座怎样的城市？”它会告诉你：“成都是中国西南地区的一个历史文化名城，位于四川盆地中部。成都是中国最古老、最繁华的城市之一，拥有丰富的历史文化遗产和饮食文化。成都的历史可以追溯到3000多年前的古蜀国时期。作为古代丝绸之路的重要通道和商业中心，成都是古代文化的重要中心之一。成都也是中国唯一一个拥有三座世界文化遗产的城市，包括都江堰、峨眉山和乐山大佛，这些遗产代表了成都的古代灌溉、自然景观和佛教文化。”虽然ChatGPT给出了很多关于文化、地理信息等方面的细节，内容看起来很可靠，但事实上，ChatGPT生成的内容中，许多都是错误的事实，也就是有害的“幻觉”。比如，“位于四川盆地中部”是错误的，成都位于四川盆地的西部；又如，“成都也是中国唯一一个拥有三座世界文化遗产的城市，包括都江堰、峨眉山和乐山大佛”，峨眉山和乐山大佛都在乐山，距离成都有2个多小时的车程。

2023年，有律师因为使用ChatGPT被终生禁业，原因就是ChatGPT捏造了6个虚构案例。

相比于ChatGPT的“胡说八道”，GPT-4则在机器幻觉上得到了改善。OpenAI指出了GPT-4与GPT-3.5在日常对话中的微妙差异。GPT-4在一致性法学考试（UBE）、法学入学考试（LSAT）、大学预修微积分等众多测试中表现得更为出色。此外，在机器学习基准测试中，GPT-4不仅在英语方面，还在其他23种语言方面超越了GPT-3.5。

OpenAI声称，GPT-4的“幻觉”现象少了很多，对“敏感请求”或“禁止内容”（如自我伤害或医疗询问）的回应倾向性减少了82%。尽管如此，GPT-4依然会表现出各种偏见，OpenAI则表示一直在改进现有系统，以反映常见的人类价值观，并从人类的输入和反馈中学习。

因此，对于GPT-5来说，消除错误回应将是它未来更广泛应用的关键，尤其是在医学和教育等关键领域。

当然，机器幻觉问题的治理是决定着GPT-5何时发布的一个关键问题，也是决定着GPT-5朝着通用人工智能这一目标能否实现突破的关键。

此外，多模态能力是GPT-5进化的另一个方向。现在，GPT-4已经可以使用图像作为输入，以获得更好的上下文，而不仅仅只能分析文本序列信息。这是GPT-4的一个非常强大的跨越点。图片的理解能力主要体现在GPT-4可以对人类给出的图片进行比较合理的解释或理解。GPT-4甚至可以理解一些内容比较搞笑的图片，或者通过一些做菜的图片想象做出的菜品，甚至可以帮忙整理图表数据，抽取图表的核心内容。我们还可以上传一些在日常生活中拍摄的照片，来跟GPT-4交流，它可以对照片做出一些有意思的评论。但是，GPT-4目前还不能理解视频信息。我们可以期待其未来的版本，不难预测，GPT-5或将获得更大的处理各种形式的数据如音频、视频等的能力，使其在各种工作领域中更加有用，而不仅限于作为一个聊天机器人或AI图像生成器。

从目前的被拆分出来单独展示的Sora中，我们已经可以提前领略OpenAI在多模态方面的能力，而这项能力一旦被整合进GPT-5，就意味着GPT-5将从当前的GPT-4的文本智能，直接跃迁到文本与视频的交互，也就是人类当前信息的最终表现手段与方式。

当然，许多人更关注的可能还是GPT-5的智能水平——期待通用AI的真正到来。GPT-5在智能水平上的升级是必然的，因为以GPT系列为代表的AI大模型，最强大的地方就在于——它的进化是近乎指数级的。本质上，它就是一台超强学习机器，每天24小时，一秒也不停止。而这种能力特征是人类完全没有的。人类被肉体所束缚，有无数的短处，在智力进化的路径上，只能像蜗牛一样走，人类进步或演化的速度，是以年、百年、千年为单位的。这与GPT系列截然不同，GPT系列的进步速度是以秒、毫秒、飞秒为演化的时间单位的，即使在人类看来最复杂的事物，它所需的学习反应的时间单位，最多也就是以小时为计的。

因此，可以预见，作为一次重要的升级，GPT-5的智能水平不仅会得到提升，还将在多个领域展现出指数级的改进。正如之前的ChatGPT、GPT-4一样，GPT-5将会是通用的，而这正是它们如此神奇的关键。换言之，GPT-5不是针对特定任务的提升，而是在整体上更为智能，这也会推动人工智能在各个领域都变得更加出色。比如，在医疗保健领域，AI的高级智能将使得诊断和治疗建议更加可靠，从而为医疗行业带来巨大的变革；它还可能在法律服务和自动驾驶等安全关键领域发挥重要作用。因此，GPT-5的提升有望为各个行业带来便利，这也正是阿尔特曼所强调的。

不管是智能升级、机器幻觉方面，还是多模态能力方面，可以期待的是，GPT-5的到来将成为科技领域又一次巨大的飞跃，这将使得人工智能更加强大、可靠，并为各个领域带来革命性的变化，推动人类社会迈向一个更加智能、创新的未来。

对于GPT-5而言，什么时候推出，除上面所谈的问题需要解决外，另外一个最大的制约条件则是算力，也就是说，当OpenAI能够构建完成支撑GPT-5公开应用的算力之后，GPT-5才会迎来真正的公开。

当GPT-5来临的时候，一场关乎各国国力竞争的序幕将正式拉开，一场由人工智能所引发的新生产要素革命将加速推进。

2.2.3　技术奇点的前夜

在数学中，“奇点”（singularity）被用于描述正常的规则不再适用的类似渐近线的情况。在物理学中，奇点则被用来描述一种现象，如一个无限小、致密的黑洞，或者我们在大爆炸之前都被挤压到的那个临界点，同样是通常的规则不再适用的情况。

1993年，弗诺·文格写了一篇文章，他将“奇点”一词用于未来我们的智能技术超过我们自己的那一刻——对他来说，在那一刻之后，我们的生活将被永远改变，正常规则将不再适用。

如今，随着ChatGPT的爆发、GPT-4等人工智能大模型的相继诞生，我们似乎已经站在了技术奇点的前夜。

人类的进步速度正在随着时间的推移越来越快——这是未来学家雷·库兹韦尔所说的人类历史的加速回报法则（Law of Accelerating Returns）。发生这种情况是因为更先进的社会有能力比欠发达的社会进步得更快。19世纪的人类比15世纪的人类知道得更多，技术也更好，因此，19世纪的人类取得的进步比15世纪的要大得多。

比如，1985年上映的电影《回到未来》中，“过去”发生在1955年，当20世纪80年代的男主人公回到1955年时，电视的新奇、苏打水的价格、刺耳的电吉他声都让他措手不及。那是一个不同的世界。但如果这部电影是在今天拍摄的，“过去”发生在1994年，那么我们会比《回到未来》的男主人公更加不适应，更与1994年的社会格格不入。这是因为1994年至2024年的平均进步速度，要远远高于1955年至1985年的进步速度——最近30年发生的变化比之前30年的要多得多。

雷·库兹韦尔认为：“在前几万年，科技增长的速度缓慢到一代人看不到明显的结果；在最近一百年，一个人一生内至少可以看到一次科技的巨大进步；而从21世纪开始，每三到五年就会发生与此前人类有史以来科技进步的成果类似的变化。”总而言之，由于加速回报定律，雷·库兹韦尔认为，21世纪将取得是20世纪1000倍的进步。

事实的确如此，科技进步的速度甚至已超出个人的理解能力极限。2016年9月，AlphaGo打败欧洲围棋冠军之后，多位行业专家认为AlphaGo要进一步打败世界冠军李世石的希望不大。但后来的结果是，仅仅6个月后，AlphaGo就轻易打败了李世石，并且在输了一场之后再无败绩，这种进化速度让人瞠目结舌。

现在，AlphaGo的进化速度或许会在GPT的身上再次上演。OpenAI于2020年6月发布了GPT-3，于2022年3月推出了更新的版本，内部称之为“davinci-002”；此后是广为人知的GPT-3.5，也就是“davinci-003”；伴随着ChatGPT于2022年11月的发布，紧随其后的是2023年3月GPT-4的发布。而按照OpenAI的计划，GPT-5在2024年会被正式推出。

从人工智能技术角度来看，人工智能最大的特点就在于，它是互联网领域的一次变革，不单单属于某一特定行业的颠覆性技术，并且是作为一项通用技术成为支撑整个产业结构和经济生态变迁的重要工具之一，它的能量可以投射在几乎所有的行业领域中，促进其产业形式转换，为全球经济增长和发展提供新的动能。自古暨今，从来没有哪项技术能够像人工智能一样引发人类无限的畅想。

由于人工智能技术不是一项单一的技术，其涵盖面极其广泛，而“智能”二字所代表的意义又几乎可以代替所有的人类活动，即使是仅仅停留在人工层面的智能技术，人工智能可以做的事情也大大超过人们的想象。

在ChatGPT出现及爆发之前，人工智能就已经覆盖了我们生活的方方面面。从垃圾邮件过滤器到约车软件，以及我们日常打开的新闻等，都是人工智能做出的算法推荐；网上购物时，首页上显示的是人工智能推荐的用户最有可能感兴趣、最有可能购买的商品；从操作越来越简化的自动驾驶交通工具，到日常生活中的面部识别上下班打卡制度……有的使我们深有所感，有的则悄无声息地浸润在社会运转的琐碎日常中。GPT模型将人工智能推向了真正的应用快车道上。

李开复曾经提过一个观点——思考不超过5秒的工作，在未来一定会被人工智能取代。现在来看，在某些领域，ChatGPT和GPT-4已远远超越“思考5秒”这个标准了，并且，随着它的持续进化，加上它强大的机器学习能力，以及在与人类互动过程中的快速学习与进化，在人类社会所有具有规律与有规则的工作领域中，人工智能取代与超越我们只是时间问题。

奇点隐现，而未来已来。正如有着“硅谷精神之父”之称的凯文·凯利所说的那样：从第一个聊天机器人（ELIZA，1964年）诞生到出现真正有效的聊天机器人（ChatGPT，2022年）只用了58年。所以，不要认为距离近，视野就一定清晰，也不要认为距离远，就一定不可能。

2.2 GPT-5呼之欲出

2.2.1 GPT-5何时发布

2.2.2 预估GPT-5

2.2.3 技术奇点的前夜

2.2　GPT-5呼之欲出

2.2.1　GPT-5何时发布

2.2.2　预估GPT-5

2.2.3　技术奇点的前夜