前言

人从出生开始，就在不断通过视觉、听觉、嗅觉、味觉、触觉等各种方式认识这个世界。我们通过不停地与外界接触、学习，逐渐长大成人，再通过专业课程的学习在某些方面获得一技之长从而立足于社会，并试图改造世界。

“硅基”AI（人工智能）也按照类似的模式成长，但是相比于“碳基”人，它在速度方面极具优势。AI经历了从最初的机器学习到神经网络，再到Transformer模型的发展，2022年底ChatGPT以及2023年初GPT-4横空出世，引燃了公众对生成式AI的关注，其中最让人激动的就是AI大模型已经初步具备了人类的通识和逻辑能力——这恰恰是之前的AI所缺失的。此前，无论是AlphaGo还是AlphaFold，最多只能称作其各自领域的“专家”，而ChatGPT是通用的。

正如OpenAI首席科学家、ChatGPT背后的技术大佬伊利亚·苏茨克维（Ilya Sutskever）所说，GPT（生成式预训练模型）学习的是“世界模型”。他将互联网文本称作世界的映射，因此，将海量互联网文本作为学习语料的GPT学习到的就是整个世界。在我们认识世界的同时，GPT模型也以惊人的算力，快速地获取我们数年甚至数十年才能拥有的认知，即将成为一个接近成年人思维水平的“世界模型”。

不仅如此，已具备了“世界模型”能力的GPT还能够生成“万物”。当然，如苏茨克维所说，这里的万物指的是世界万物在数字空间的映射，包括文本、图片、音频、视频、剧本、代码、方案、设计图等一切和我们生产、生活息息相关的事物。因为GPT模型在一定程度上可能已经具备了成年人的通识和逻辑，所以我们只需要拿特定专业领域的数据对其再做训练（称为“微调”），它就可以成为独当一面的专业人才，可能成为艺术家、设计师、程序员、工程师或广告优化师、供应链专家、客服人员等。这也许就是生成式AI或者说AIGC（AI generated content，人工智能生成内容），带给我们的核心价值。

在AI技术大爆炸的今天，生成式AI处在高速发展阶段，技术和应用领域日新月异，因此我们非常有必要系统地了解生成式AI。在这样的背景下，本书将系统介绍生成式AI的原理与模型，同时也将对其在行业场景中的应用展开论述，将理论和实际相结合，让大家从本源上了解ChatGPT里程碑式存在的意义。结合作者二十余年AI领域研究与工作的经验，本书会为读者指明方向。尤其值得一提的是，本书既在理论上解释了数字媒体即虚拟世界的生成式AI，又探讨了生成式AI如何服务和赋能实体经济。在当前的存量经济时代，通过生成式AI重新定义生产力，助力行业更新发展，在存量里促增长，具有尤为重要的意义。

如图0-1所示，我们用图表明本书所覆盖的知识领域：X轴是生成式大模型的维度，对应的是第二章“AIGC的底层逻辑”，我们将了解“用什么去生成”；Y轴是数字媒体形态的维度，对应的是第三章“功能分析：AIGC能生成什么内容？”，我们将了解生成式AI能“生成什么”；Z轴是行业职能的维度，对应的是第四章“商业落地：AIGC的产业应用与前景”，我们将了解用生成式AI可以“做什么事”。三个轴所形成的空间里的每个点都有其特定含义，例如：通过GPT-4模型生成代码用在生产上，通过Stable Diffusion模型生成图片用在营销上。除了这三章，第一章会带领读者初识生成式AI，第五章则探讨生成式AI是否会取代大量的工作岗位，以及我们应该如何主动应对。

图0-1 本书所覆盖的知识领域

希望任何一个不想在生成式AI时代落伍的人，在阅读本书之后，都能理解生成式AI的底层逻辑和实际应用，也希望本书对他们的工作和生活有所助益。“万物皆可生成”的时代已经来临，理解AI、训练AI、使用AI，甚至和AI一起工作，对每个人来说或将无法避免。未来已来，让我们一起出发！