AIGC新纪元：洞察ChatGPT与智能产业革命最新章节_刘通著

AIGC的崛起：从AI艺术品到产业革命

2022年8月，在美国科罗拉多州举办的数字艺术家竞赛中，一幅名为《太空歌剧院》的画作获得了数字艺术类别的冠军。但这一绝美的画作并没有让艺术家们心服口服，反而引起了巨大的争议，众说纷纭的源头在于这幅冠军作品并非作者亲自绘画，而是使用AI算法绘图工具Midjourney替代完成的（见图1-7）。

图1-7　获奖艺术作品《太空歌剧院》

生成来源：Midjourney。

人类艺术家愤怒了。艺术家们表示，使用AI生成图像是在使用高科技手段作弊，这些画作也不能被称为艺术作品。“AI画作作弊”这一话题的争议在世界范围内迅速发酵，登上了国内外的网络热搜。

如果说AI绘画第一次让用户感受到了AIGC的独特魅力，那么ChatGPT的横空出世则更加令世人为之震惊。AI创作的强势崛起，正式地让全世界看到了AIGC的真正实力。

●　被ChatGPT带“火”的AIGC

AIGC作为新的生产力引擎，通过智能算法，批量、自动化地生产内容，生成的内容形式丰富多样，文本、图像、音频、视频，甚至3D模型和代码都能“信手拈来”。基于AIGC模型的创作速度、创作质量、创作成本，以及创作的传播效应，都远远超过传统的内容生产方式。

ChatGPT虽然只是AIGC商业化落地的一个分支，但却是让人们最“震撼”的一个壮举，因为它具备了“人性思维”。GhatGPT似乎能够理解文本的更深层次含义，连续流畅的对话反馈和对错误的及时纠正，都暗示着AI拥有更高的“情商”和“心智”。AI生产出的内容不再是机械化的固定脚本，而是真正可以产生共鸣的交流内容。AIGC也从遥远抽象的概念逐步转变为生动形象的产品形式，给人们带来“流连忘返”的丰富体验。

“AIGC将颠覆现有内容生产模式，可以实现以十分之一的成本，以百倍千倍的生产速度，创造出有独特价值和独立视角的内容”，百度董事长兼首席执行官李彦宏在2022世界人工智能大会上如是说。

过去，AI只能协助人类完成内容生成中最简单、最基础的部分工作，无法独立生成内容，更不要提优质的输出内容。如今，这一情况正在因AIGC生成模型的开源应用而被打破，AI技术也因此实现了“进化”。

2022年是AIGC生成模型奇幻发展的一年，科技领域人士和专业学者发表了一系列引人注目的相关论文。其中，人机对话方面诞生了如雷贯耳的ChatGPT，DreamFusion模型生成了不可思议3D模型，Stable Diffusion 创造了超现实主义艺术AI绘画，Make-A-Video则迎来了从文本生成视频的突破。

AIGC丰富的想象力和惊为天人的创作能力，都是基于大量的数据标注和模型训练生成的。卷积神经网络和Transformer大模型的流行成功地使深度学习模型参数量跃升至亿级，OpenAI更是收集了4亿个文本图像配对，在45TB的数据量上完成了浩大的“预训练”参数计算任务。海量数据的不断迭代推动了AIGC发展的进程。

正是有了海量数据的加成，借助宝贵的语料库资源，AIGC得以在内容创作方面拥有了无限的思维灵感。同时，AI工具仿佛是超级画手或作曲家，能够模仿特定的艺术家，生成指定风格的图像、音乐或视频。未来，AIGC技术在时间短、规模大、风格多等技术特点上的融合趋势将进一步得到加强。

拥有一定程度的认知和交互能力，是AIGC技术发展的重要趋势。开发者使用代码的输入输出解释人与计算机进行交互的底层逻辑，而用户则使用智能终端和网络平台实现人机交互与互联通信。AIGC的出现为人与机器之间的沟通带来了更多可能，其利用自动问答、视觉识别等技术实现了更加多元化的人机交互效果。

海量数据、内容创造力、认知交互，三者共同驱动着机器的智能创作活动，让AIGC成为“新一代”不可替代的内容生产方式。AIGC以其在人工智能领域的重要成果，被Science评为2022年度科学十大突破，其底层技术和产业生态已经形成了新的格局。

2022年被称为AIGC元年，迅猛的全新的AI发展已成不可逆之势。

●　AIGC的前世今生

穿越历史周期，结合人工智能的历史演进，AIGC的发展大致可以分为四个阶段：

早期萌芽阶段（20世纪50年代至90年代中期）

20世纪中后期，受限于当时的计算机水平，AIGC技术仅限于小范围实验。当时，AIGC主要应用在创作音乐、简单的对话机器人和语音打字机等领域。

莱杰伦·希勒与伦纳德·艾萨克森在1957完成了历史上首支由计算机创作的音乐作品《伊利亚克组曲》。1966年，约瑟夫·维森鲍姆和肯尼斯·科尔比共同推出了世界上首款人机可对话机器人Eliza，通过关键字扫描和重组来进行互动。在20世纪80年代中期，IBM基于隐形马尔科夫模型创造了语音控制打字机“坦戈拉”。然而在20世纪末期，高昂的研发与系统成本让AIGC的商业变现模式难以落地，AIGC的发展暂时受阻停滞。

沉淀积累阶段（20世纪90年代中期至21世纪10年代中期）

随着深度学习等人工智能技术的出现以及计算设备综合性能的提升，AIGC的实用性不断地增强，逐渐开启了商业化的探索。在数据源层面，互联网技术的发展引发了数据规模的快速膨胀，AIGC发展取得了显著进步。

该阶段的典型技术代表作，是微软在2012年公开展示的基于深度神经网络（DNN）的全自动同声传译系统，该系统可以自动将英文演讲者的内容通过语音识别、语言翻译、语音合成等技术动态合成为中文语音内容。但由于当时算法性能面临瓶颈，导致创作任务的完成质量限制了AIGC的广泛应用。

快速发展阶段（21世纪10年代中期至2021年）

随着深度学习算法的不断迭代更新，AIGC的新时代正式开启，机器生成内容在图像、视频、音频等领域均产生诸多重要的应用实践与技术创新。

2014年，生成式对抗网络（GAN）出现，AIGC进入了生产内容多样化的时代，且产出的内容效果更加逼真。2017年，微软的人工智能少女“小冰”创造了世界首部全AI创作的诗集《阳光失了玻璃窗》。2019年，DeepMind发布了可生成连续视频的DVD-GAN模型。2021年，OpenAI推出了DALL-E模型，并于2022年将其升级为DALL-E2。该产品可根据用户输入的简短描述性文字，自动生成与文本对应的图像内容，得到极高质量的图像绘画作品。

爆发与破圈阶段（2022年至今）

2022年AI画作的问世，ChatGPT的火爆出圈，都让AIGC的发展得到了空前的进步。

2022年5月，Google推出了文本图像生成模型Imagen；2022年8月，AI绘画工具Stable Diffusion发布；2022年11月，OpenAI推出了AI聊天机器人ChatGPT；2023年2月，微软宣布加入ChatGPT，推出ChatGPT可支持的新版本的Bing搜索引擎。

2023年3月14日，OpenAI官方宣告多模态大模型GPT-4重磅登场。相较于GPT-3.5，加入了新模态的GPT-4，在语音、统计表格，以及网络图片等多项特殊内容的合成能力上取得了“可圈可点”的突破。紧接着，微软把GPT-4全面接入Office产品序列，整合出了办公软件的“王炸”产品——Microsoft 365 Copilot，开启了AI桌面新革命。至此，AIGC正式进入了爆发阶段。

从AI到AIGC，是从感知世界到创造世界的系统能力跃迁。AI技术的突破创新，如智能算法、预训练大模型、多模态信息处理等技术，都为AIGC的“大爆发”提供了强有力的底层数据应用能力支撑。

传统AI像经过专业学习的职业应用者，AIGC更像是接受过通识教育的大学生，有着很强的可拓展性。比如，很多平台现在用智能客服AI替代人工客服，但智能客服只能按照事先设计好的话术进行交流，一旦超出规定的场景和语境，智能客服的处境就变得很尴尬。这样的例子还有很多，很多人家里都买了可以播放音乐或音频的机器人，还可与它们进行简单交流，但这些交互功能都是程序事先设定好的。机器人不能想说什么就说什么，不能做到真正的聊天。

AIGC相比传统AI，“主动”和“被动”是二者之间的根本差别。AIGC开始和人一样，有自己的思想了，虽然这种思想也是由人来引导的。传统的AI重在解决某一类问题，AIGC更多在于解决广泛的任务类型。传统AI重点在于分析内容，而AIGC已具备生成新事物的能力，不仅局限于分析已经存在的东西，更重视创造内容。

ChatGPT是典型的文本生成式AIGC，自然语言的理解能力是AIGC发展的一个首要的关键环节，对文字和语音模态的应用具有重要意义。ChatGPT实际就是基于自然语言的交互式聊天服务，用户对相关技术产品的“上手”成本很低。ChatGPT引入了一个新的训练方法RLHF，即在基于大数据的模型预训练中加入了人类的评价反馈意见，使其生成的内容在有效性和准确度上都有了大幅的提升。

AI绘画是AIGC的重要应用领域，Diffusion扩散模型是AI作画应用的重要算法模型基础。OpenAI发布的用于匹配文本和图像的神经网络模型CLIP，则被认为是近年来在多模态研究领域的杰出成果，它不仅能对文字进行语言分析，还能对图形进行视觉分析。Diffusion+CLIP的完美组合让AI自动生成文字和图片的质量得到了质的提升，通过不断调整两个模型的内部参数，达到文字和图像更高度匹配的效果（见图1-8）。在这一过程中，“开源”的技术产业模式也进一步促进了AIGC的传播和普及。

图1-8　绘画作品《冬季小木屋》

生成来源：Stable Diffusion。

AIGC的发展迎合了数字内容强需求、视频化、创意新的螺旋式升级发展特征，正在越来越多地参与到数字内容的创意性内容生成活动中。通过人机协同的方式持续释放数据资源的价值，AIGC有望成为Web 3.0的内容生成基础设施，也将成为打造虚实集成世界的重要技术基石。

●　AIGC的内容形态

随着深度学习模型不断完善，开源模式的全面推动，以及大模型的广泛商业化探索，AIGC将伴随充沛的市场需求加速产业应用落地。随着数字经济与实体经济融合程度的不断加深，以及微软、字节跳动等平台型巨头的数字化场景向元宇宙转型，人类对数字内容总量和丰富程度的整体需求正在不断提高。

AIGC作为当前新型的内容生产方式，已经重构了内容消费领域的应用生态，率先在数字化程度高、内容需求丰富的领域取得了创新发展。AIGC已在不知不觉中渗透到人们日常生活中的每个角落，从手机软件中的“人声”问答，到直播中的“虚拟人”主播，它的身影无处不在。

人们在享受丰富数字生成内容带来乐趣的同时，人机交互和人类反馈强化也同时促进了AIGC的成功。AIGC的出现可以协助企业从不同领域共同提升生产质效，这也为AIGC提供了普适性的模型优化思路。以ChatGPT为延伸的AIGC底层技术已被逐渐应用，并迁移到以下内容形态：

文本生成领域

文本生成是AIGC实现商业落地最早的技术之一，其发展显著提高了数据模型面向对话对上下文的理解能力、对知识的嵌入能力、对内容的创造能力，以及生成内容的内在逻辑性等。

AIGC文本生成技术的现有落地场景主要集中在应用型文本生成、创作型文本生成，可以快速生成诗歌、小说、剧本、新闻等内容，并且允许指定写作风格；基于相关文本生成模型，甚至可以根据对用户需求的自动分析，完成邮件撰写、通用写作、记录笔记等各项文字创作任务。

音频生成领域

AIGC的音频生成技术主要应用在乐曲、有声书的内容创作，以及游戏、影视等领域的配乐创作，在众多场景已取得发展，得到广泛应用并逐渐趋于成熟。AIGC以及语言处理技术在音频互动产品中的应用，融合实时语音及音频娱乐等产品形态，进一步加快了产品创新步伐，持续赋能受众用户和内容生产者。

2021年9月，索尼计算机科学实验室发布了一款AI辅助音乐制作应用程序Flow Machines Mobile，该程序能够根据创作者选择的风格、旋律、和弦和贝斯线，利用AI技术辅助完成音乐制作（见图1-9）。同月，喜马拉雅用语音合成（Text to Speech，TTS）技术完美还原了单田芳先生的声音，并首次将单田芳先生的AI合成音——单氏评书腔调应用于书籍，演绎听众耳熟能详的经典之作。

图1-9　辅助音乐制作应用程序Flow Machines Mobile

图像生成领域

AIGC绘画技术的应用领域广泛，例如美术教育、广告设计、游戏开发、动画制作等。在美术教育方面，AIGC绘画可以为学生提供多样化、高质量的绘画作品，帮助他们快速提高绘画技能和水平；在广告设计和游戏开发方面，AIGC绘画可以帮助设计师快速生成创意和美观的广告和游戏画面，提高设计效率和质量；在动画制作方面，AIGC绘画可以快速生成动画帧，节省制作成本和制作时间，帮助画师高效率地设计新的故事角色和场景等。

2022年10月，Stability AI 获得1亿美元融资，估值达10亿美元，成功跻身独角兽行列。Stability AI的开源产品Stability Diffusion可以根据文字提示自动生成图像（Text to Image，T2I）（见图1-10）。此外，以Stability Diffusion为首，DALL-E2、Midjourney等模型生成的AI图片瞬间引爆了绘画领域，AI作画的成功标志着人工智能迅速地向艺术领域渗透。

图1-10　Stability AI宣传内容展示

视频生成领域

AIGC视频生成技术的原理与图像类似，但视频编辑任务比在图像上操作更具挑战性，需要在图像的基础上合成新动作，并保持时间维度的内容一致性。视频生成的应用场景主要集中在视频属性编辑、视频自动剪辑、视频部分编辑，前者已有大量应用落地，后两者还处于技术尝试阶段。

2022年9月，Meta公司公布了旗下“Generative AI”研究项目的最新人工智能系统Make-A-Video，该系统不仅可以通过文本描述直接生成视频，还可以从图像或类似的视频中再生成视频（见图1-11）。随后，Google也发布了两款文本转视频的智能化工具，分别为强调视频品质的Imagen Video和主打视频长度的Phenaki。这较此前提到的文本生成图像来说又是新一轮的技术升级。

图1-11　Meta AI宣传内容展示

游戏生成领域

当前，AIGC在游戏生成领域的应用主要在图像渲染等画面美工方面。游戏中包含文本、图像、音效、音乐、3D模型、动画、电影、代码等多种类型的文件数据资源，是娱乐以及媒体行业最复杂的形态。随着AIGC的广泛应用，未来能够根据文本生成语音，根据主题生成场景，根据二维图像生成三维模型，有效提升游戏在策划、音频、美术、程序等环节的综合生产力，压缩游戏的整体项目研发周期与人员投入规模，大幅降低游戏制作的总体成本。

多家公司已经将AI技术广泛融入了热门游戏的开发中。比如，腾讯AI Lab已在《王者荣耀》游戏中运用了决策AI引擎“绝悟”（见图1-12）；网易互娱旗下的AI Lab产品也已经灵活运用于《梦幻西游》和《一梦江湖》等热门游戏的开发中；此外，在游戏作品《Cognition Method》中，也多处使用了AI绘画软件，来制作概念原画和生成素材。

图1-12　《王者》“绝悟”人工智能体验空间

3D虚拟场景领域

在3D短视频领域引入AIGC技术，相当于重新定义了3D内容生产活动，降低了3D创作工具的使用门槛。普通用户可以在文本框中直接输入想要展示的视频内容，系统能够自动识别相应文本的语义需求，并根据提示生成3D模型。

2022年初，Facebook创始人马克·扎克伯格首次推出了Meta新系统“BuilderBot”，根据语音描述的环境，自动创建相应场景的元宇宙虚拟世界（见图1-13）。与BuilderBot类似，苹果也将推出与AI联合的全新语音助理Siri，用作三维场景的创建。用户只要通过语音交互告诉Siri想象中的虚拟动物，以及它们在场景中的移动方式，系统便可准确构建出相应的场景。除此之外，系统还可以计算出物理空间中的障碍物，并为虚拟动物附加自然的物理交互效果。

虚拟人

AIGC是支撑虚拟数字人应用的关键技术，多模态信息的生成理论与技术的突破，驱动了数字人从动态交互阶段迈向智能化阶段，拓展了数字人的产业应用领域，虚拟偶像、虚拟主播、虚拟人等多重创新产品形态迅速崛起。背靠AIGC技术，虚拟人可以充分模拟人与人之间真实可感的对话，达到“可看”“可听”“可互动”的效果，给用户提供了一种更真实、更舒适的交流体验（见图1-14）。

图1-13　BuilderBot创建的虚拟世界

图1-14　“数字人”技术产品概念图

AIGC 技术顺应了内容行业发展的内在需求，能够以更少的成本、更快的速度，生成面向不同内容形态领域的更加个性化的数字场景，支持数字内容与产业的多维互动与融合渗透，孕育新的业态模式。此外，AIGC能够提升元宇宙内容的制作效能，复刻元宇宙的持续性、实时性和可创造性，极大地扩展元宇宙想象空间与商业前景。

AIGC相关领域的算法和应用的落地，意味着AI技术已经进军到了先前人类独占的科学和艺术等高端认知活动领域，AIGC的“高产能”成为许多国内外互联网科技巨头的竞争高地，并且逐渐形成了一场“抢地战”。

亚马逊与AI制图平台Stability AI合作，成为其首选的云合作伙伴，同时为其提供亚马逊Tradium芯片；谷歌向人工智能初创公司Anthropic投资4亿美元，布局ChatGPT的竞争产品。在国内，华为诺亚方舟实验室联合多部门推出了首个2000亿参数中文预训练大模型盘古α；腾讯发布了写稿机器人Dreamwriter，根据算法在第一时间自动生成稿件，瞬时输出分析和研判；阿里巴巴旗下AI在线设计平台“鹿班”着力开展海报设计的生产应用；百度发布了AI艺术和创意辅助平台“文心一格”，用来快速生成AI画作。

AIGC 汹涌向前的发展趋势以及不断进化的深度学习技术，有效地协助创作者从辅助索引到内容呈现，极大地提高了内容创作者阅读和搜集信息材料的效率，也刺激着他们的思考与创作体系不断完善和升级。