当很多人还在适应GPT系列人工智能(文中或称AI:Artificial Intelligence)工具给生活带来的改变时,OpenAI又打开了新局面。2024年初,OpenAI发布了第一款文生视频模型——Sora,能够生成一分钟的高保真视频,一石激起千层浪。
Sora和ChatGPT的诞生让我们看到,技术的发展或许是有迹可循的,但技术的突破节点却难以预测。
2023年,ChatGPT风靡全球。其凭借强悍的产品性能,文能写诗,武能编码,上知天文,下知地理,推出仅仅2个月后,ChatGPT的月活跃用户就已经达到1亿人次,成为历史上用户数量增长最快的消费类应用。在ChatGPT发布后,OpenAI又陆续推出了GPT-4和GPT-4o。在这一年时间里,OpenAI还做了许多事情:开放ChatGPT API和GPT-4 API,让产品开发者无须自主研发类GPT,通过API即可进行二次应用;推出GPT系列的微调功能,让企业和个人都可以得到专属的GPT;上线GPT商店,不仅壮大了自身的AI生态,还扩张了商业化的路径;给机器人装上GPT大脑,让机器人得到了智能升级;将GPT融入可穿戴硬件,成为“AI时代的新iPhone”……
OpenAI的每一步举措,让以GPT为代表的大模型朝着人类社会更进一步。GPT已然征服了许多行业:微软的Bing整合了GPT-4,带给人们全新的搜索体验;经典办公软件借助GPT进行了升级;GPT成了许多设计师的必备工具;新闻的撰写与传播有了GPT的参与;医疗、金融、法律、教育……许多行业都有了GPT的痕迹。
Sora标志着AI技术在内容创造领域的一个重要进步。本质上,Sora就是一个“文生视频工具”,能够根据用户提供的自然语言指令生成高清视频内容。这意味着用户可以通过简单的文本描述,让Sora创造出几乎任何场景的视频,从而极大地拓宽了视频内容创作的边界和可能性。但Sora又不只是一个“文生视频工具”,它能够理解用户的需求,以及掌握这种需求在物理世界中的存在方式。也就是说,Sora能够通过学习视频来理解现实世界的动态变化,并用计算机视觉技术模拟这些变化,从而创造出新的视觉内容。Sora学习的不仅仅是视频,也不仅仅是视频里的画面、像素点,还在学习视频中世界的“物理规律”。Sora最终是一个通用的“现实物理世界模拟器”,即为真实世界建模。
技术进化的新时代已然开启。从ChatGPT到GPT-4o,再到Sora,人工智能正在跨越机械逻辑的边界,模拟并延展人类思维维度,从被动响应走向主动理解。本书基于此,以ChatGPT为起点,以GPT系列的发展为主线,介绍了ChatGPT的诞生和爆发,以及ChatGPT的真正价值,阐述了ChatGPT为什么能开启一个AI新时代,这个新时代是怎样的。本书还对ChatGPT发布后,OpenAI的行动(发布GPT-4和GPT-4o、开放API和微调功能、上线GPT商店等)进行了细致介绍和分析。可以说,OpenAI已经成为人工智能领域当之无愧的引领者,不仅逐渐形成了一个完善的AI应用生态,更是打造出了一条通用人工智能的技术路线。对OpenAI的行动和计划有所了解,不仅有助于认识快速更迭的人工智能技术,还将进一步理解这个充满变化的世界。
当然,除GPT系列和Sora外,本书还对OpenAI的竞品公司进行了介绍和分析,包括头部科技公司谷歌、从元宇宙转向AI的Meta、OpenAI的最强竞争对手Anthropic、马斯克成立的人工智能公司xAI等。书中还对ChatGPT掀起的“百模大战”进行了分析,并对大模型的下一步发展进行了预测。本书文字表达通俗易懂、内容富于趣味,能帮助读者了解人工智能大模型的发展脉络,并在纷繁的信息中梳理出人工智能行业变革以及即将到来的通用人工智能时代的线索。
人工智能不仅是当今的科技标签,它所引导的科技变革更是在雕刻着这个时代,为此,我们需要有所准备。
陈根
2024年春