生成式人工智能：AIGC的逻辑与应用最新章节_丁磊著

聚焦AIGC：内容皆可生成

当下，世人的目光被ChatGPT、GPT-4这些AIGC深深吸引。而在清楚地认识这些新事物之前，我们需要梳理一下它们的历史脉络，其实在数年硝烟弥漫的“内容大战”中，我们已经悄然经历了多种内容形式的迭代：PGC（professional generated content）、UGC（user generated content）和AIUGC（artificially intelligent UGC）。PGC即“专业生产内容”，主要指具备专业背景的内容生产者所创造的内容；UGC则为“用户生产内容”，其内容的源头更偏大众化，人人都可作为用户进行内容生产；AIUGC则为人工智能与UGC的结合，人工智能参与到了用户创作内容的过程中。如今，在三度更迭之后，AIGC正式来袭。与PGC、UGC和AIUGC不同的是，在AIGC的概念中，“无生命的”人工智能成了完全的内容源头，“无生命主体”成了为人类创作内容的生产者。人工智能在人类社会的应用又取得了颠覆性的突破，透出了不同于以往的炫目光彩，吸引着人们不断探索。如图1-7，从PGC、UGC、AIUGC到AIGC，所对应的内容数量呈逐渐增加的趋势。

图1-7 内容创作的四个发展阶段

从字面上看，AIGC就是利用人工智能自动生成内容的生产方式，它可以在生成式AI模型、训练数据等的基础上，生成文本、图片、音频、视频、代码等多样化内容，这种快速的内容生产方式给市场注入了令人兴奋的新鲜血液。AIGC的出现，使得各行各业都受益，使得人们的生活更加便捷。但在发展得如火如荼的同时，AIGC又引发了我们对其更深层次的思考。

AIGC开启了新一轮的内容生产革命，它在多样性、质量、效率三个方面推动了内容生产大踏步前进。AIGC的出现，既可以满足消费型内容亟待扩充的需求，也可以快速产出多样化的内容形态，迎合多种细分场景，以AI作者的身份助力商业化浪潮的翻涌。或许我们现在正在看的某张图片、某段视频就是AI作者的“作品”，而我们却不自知。

下面我们就围绕AIGC，对文本、图片、视频等不同的内容形式展开论述，看看AIGC究竟是如何“长袖善舞”，在各个内容形式中发挥作用的。

文本生成

AIGC生成文本目前主要被应用于新闻的撰写、给定格式的撰写、风格改写以及聊天对话，GPT是主流的文本生成模型之一。

GPT的“学名”是生成式预训练模型（generative pre-training transformer），这是一种用来分析和预测语言的人工智能模型，它可以帮助我们进行自然语言处理，例如机器翻译、自动文摘和快速问答。GPT的厉害之处是，它可以在文本中自动学习概念性内容，并自动预测下一段内容。也就是说，它可以根据上下文记住概念，并能够在短时间内直接输出相关内容。

GPT背后的基础模型是一种新型的机器学习技术，它可以帮助我们分析大量的自然语言数据。它背靠一个大型神经网络，通过在已有文本库中找到有关自然语言的规律来学习。GPT无须人工设计特定的自然语言处理系统，可以根据已有文本，自动生成语法正确、内容相关的文本。有这样一个“神器”，很多内容就可以借助它的力量来完成了！

GPT的发展目前经历了GPT-1、GPT-2、GPT-3、GPT-3.5和GPT-4几个阶段。对于GPT-1模型，我们可以这么理解：先使用海量没有进行标注的语料，预训练出一个语言模型，而后对语言模型进行微调，使之应用于特定的语言任务中。GPT-2则在GPT-1的基础上进行了多任务的训练，使用了更大的数据集，提升了语言处理能力。GPT-3则在训练的参数量、训练数据和训练费用上都高于前两者，能完成更加复杂的任务。

OpenAI推出的ChatGPT是GPT-3.5的延伸，这是一款聊天机器人程序，能通过学习和理解人类的语言与人类对话，还能实现视频脚本撰写、营销文案写作、文本翻译、代码编写等功能。例如它在代码理解和编写方面的能力，就在程序员圈引起了广泛的关注：它可以看懂你输入的代码片段，帮你解读其中的含义，甚至可以根据你的要求帮你编写一段完整的代码。如此强大的能力，几乎颠覆了人们的认知，并引发了诸多关于“AI替代人类”的相关讨论。

而当人们还沉浸在ChatGPT带来的无限遐想中时，就在2023年3月，OpenAI推出了史上最强大的模型——GPT-4。它在文学、医学、法律、数学、物理和程序设计等不同领域表现出很高的熟练程度，各方面能力已全面超越ChatGPT。不仅如此，它还能够将多个领域的概念和技能统一起来，并能够理解一些复杂概念。OpenAI在官网上演示了这样一个示例：向GPT-4展示一张图片（图1-8），并询问图中有什么有趣的地方。而GPT-4的回答相当精妙：这幅图的有趣之处在于，把一个大而过时的VGA（视频图形阵列）接口插入一个小而现代化的智能手机充电端口，这是十分荒谬的。GPT-4俨然拥有一个普通人的正常思维。

要想深刻了解AI技术的发展，我们就需要到推动主体——企业中去。主打AI文本生成的Jasper公司位于美国加利福尼亚州，通过其产品的文本生成功能，用户可以轻松完成生成Instagram（照片墙）标题，编写TikTok（抖音国际版）视频脚本、广告营销文本、电子邮件内容等略显烧脑的重复性工作。AI文本生成功能一经推出，便给社交媒体、跨境电商、视频制作等多个新兴行业带来了巨大的颠覆力量。

图1-8 一张“有趣”的图片

图片来源：https://openai.com/research/gpt-4

除了Jasper以外，OpenAI更是近期谈论AI时不可绕过的热门企业。OpenAI是一家AI研究公司，成立于2015年，它旨在促进人工智能的安全可控发展。我们前文中提到的GPT这类卓越的自然语言处理模型，就是OpenAI首创推出的，这也使得OpenAI一跃成为AI行业的佼佼者。在自己进行技术创新之外，OpenAI也通过与微软等行业巨头的合作，将AI的应用推向更高的层次，这也将为人类的日常生活带来丰富的可能性。

由于GPT有基于英文语料库且不开源的局限，国内的技术人员也在探索我们自有的自然语言处理模型。2020年11月中旬，北京智源人工智能研究院和清华大学研究团队就合作推出了中文预训练模型——清源CPM（Chinese Pretrained Models），我们也有了自主研发的类似于GPT的模型。

图片生成

你是否尝试过用AI生成图片呢？谈到AI生成图片，你第一时间又会想到哪个程序呢？你所使用的程序，很可能背后是由Diffusion（扩散）模型来进行技术支撑的。Diffusion模型是一种新兴的AI技术，它的灵感来源于物理学中的扩散现象：通过对图片不断加入噪声来生成一张模糊的图片，这个过程类似于墨水滴入水池的扩散过程；再通过深度神经网络学习模糊的图片并还原成原始图片的逆扩散过程，实现生成图片的功能。目前，Diffusion模型在视觉艺术和设计相关领域非常受欢迎。

Stability AI是一家全球领先的AI研究型企业，致力于开发前沿的人工智能模型。2022年，由该公司与另外两家初创公司共同研发的Stable Diffusion模型发布，可以真正实现“一秒出图”，这个“一秒”不是夸张的代指，而是真正的事实。这就意味着你可以借助AI，实现自己瑰丽的梦境，复原宏大的想象，也可以为自己的小说配上极富幻想感的插图，不论它们有多超现实，你都可以通过AI把它们呈现在大家的眼前，让想象不再孤独。

2022年，AI绘图突然大热，随着DALL·E2、Stable Diffusion、Midjourney等图像生成领域现象级应用的纷纷兴起，AI绘画就像一阵旋风，首先在国外引起了不小的风浪，社交平台上出现了大量的AI绘画相关尝试和讨论。很快这场旋风就从国外刮到国内，引起了国内用户的广泛关注。这些应用到底有着怎样惊奇的功能，而它们背后又有哪些企业在推动这场AI绘画“旋风”呢？

首先我们把目光放到Midjourney身上（图1-9），这是由同名研究实验室开发的AI绘画工具。在AI绘画领域，Midjourney降低了艺术绘画创作的门槛，用户只需要输入文字描述，计算机就会自动生成一张作品。Midjourney采用了深度学习模型，能够自动为用户生成高质量的绘画作品，包括素描、油画等，让用户的使用更加方便。

毫不夸张地说，Stable Diffusion模型是掀起AI绘画热潮的源头之一，Stable Diffusion本身及基于它开发的绘画工具，让AI绘画引爆了舆论热潮。而其背后的公司Stability AI在AI绘画模型爆火前的估值为1亿美元，爆火后的估值则为10亿美元，狂涨10倍，足见AI技术产出的大众化程序有多么强大的市场潜力。

图1-9 Midjourney官网

与此同时，也有其他公司在AI绘画赛道“另辟蹊径”。如一家成立时间不到两年的公司PromptBase，主营业务为销售AI绘画工具的提示词，将提示词复制到Midjourney、Stable Diffusion等AI绘画平台，可以实现精准快速的图像生成，让用户在探索提示词上少走弯路。

若把目光转向国内，百度集团旗下的人工智能产品文心一格也在2022年8月宣布，用户只需要输入一段文字，并选择作画风格，文心一格就可以快速生成一幅画作。它以百度飞桨深度学习平台、文心大模型等技术为支撑，通过对海量优质图文的学习，经过多次迭代升级，如今已具备了更强的中文内容语义理解能力以及高质量图像生成能力，进一步满足国内用户对AI绘画的需求。

视频生成

AIGC视频生成，是一种基于人工智能的视频制作技术，它能够根据用户提供的文字提示，自动生成视频内容，而且还能够根据不同的需求调整视频的参数，以达到最佳效果。这在某种程度上是AIGC图片生成的延伸，视频生成的目标是生成连续图片（每张图片即一帧）的序列，它可以使用深度神经网络技术来生成高质量视频和动态内容，从而极大地提高视频的制作速度，也能够让视频内容更加逼真生动。

AIGC视频生成已经在很多行业得到了应用，并取得了不错的效果。学校可以使用AI视频生成技术来制作动画片或教学视频，医院也可以使用AI视频生成技术来模拟手术过程，帮助外科医生更好地理解手术流程。我们体验过的视频游戏、虚拟现实（VR）、视频会议等，都可能与AIGC视频生成的技术有关。

在AIGC视频生成技术逐渐成熟后，不少新兴科技公司也开始使用人工智能技术来进行影视制作，传统的影视制作方法与人工智能技术强强联合，能实现大规模的动态图像处理、自动剪辑、自动字幕添加、智能特效设计等，在影视制作中也能极大地解放人力和物力，压低制作成本。

AI影视制作的案例颇多，如电脑艺术家格伦·马歇尔（GlennMarshall）的人工智能电影《乌鸦》（ The Crow ）就获得了2022年戛纳短片电影节评审团奖。《乌鸦》的基础是视频网站上的短片 Painted ，马歇尔将其输入OpenAI创建的神经网络中，然后指导另一个模型生成图像，这样就生成了一段关于“荒凉风景中的乌鸦”的视频。在电影《速度与激情7》中，剧组将虚拟演员“放置”到视频中，实现虚拟与现实的完美融合，减轻人物和场景的限制，实现更多可能。这种效果是怎样实现的呢？这涉及多重技术支持：首先从之前的镜头中选择拍摄所需的动作和表情，建立数字成像模型，再渲染出虚拟的人物；在替身演员拍摄完肢体动作后，还会对脸部进行替代。通过这种方式，逝去的保罗·沃克在电影《速度与激情7》中“重生”，为影迷带来了慰藉。

在AIGC视频制作赛道同样有很多“明星企业”。2023年2月6日，人工智能初创公司Runway官网宣布推出AI视频生成模型Gen-1，给竞争已十分激烈的AIGC赛道又添了一把熊熊烈火。Gen-1究竟有什么令人惊叹之处呢？它采用了最新的深度学习编码技术，可以将数据转化为精美的3D图像和视频，还能根据文字脚本、图片、视频剪辑等进行自动内容生成，创造出真实感十足的3D场景，帮助使用者体验真实世界中所不能触及的情景，比如现在无法实现的太空旅行、历史重现等，小说中的“穿越”情节可以在现实中上演，给生活带来了无尽想象和无限可能。此外，Runway还提到会不断改进Gen-1，让其以更低的成本和更快的速度，生成更精彩的内容，为人类提供无尽的创意。

除行业新秀外，谷歌也推出了Imagen Video与Phenaki两款视频制作工具。其中，Imagen Video能够生成高清以及具有艺术风格的视频和文本动画，还具有高度的可控性、对世界知识和3D对象的理解能力，而Phenaki能够根据一个故事的时间线来生成视频。另一家硅谷巨头Meta（脸书部分品牌更名而来）推出的则是Make A-Video，借助这款工具，可以生成非常富有想象力的奇趣视频（图1-10）。

图1-10 Make-A-Video生成视频示例

图片来源：https://makeavideo.studio

除了AIGC在内容生成中的多角度应用，根据这项技术所延展的内容工具还能“互通有无”。不同内容形式的模型之间并没有壁垒，而是可以联合使用，实现跨模态的内容生成。例如将GPT-3、Stable Diffusion一起使用，可以实现流畅的修图功能，让修图不再费时费力，美工不再被甲方的需求折磨。这个功能为什么可以实现呢？如图1-11，我们给定一个输入图像和一个编辑图像的文本指令，这样它就能遵循我们给出的描述性指令来进行图片的加工编辑了。这听起来很智能，但实现此类功能的前提是要精细化地了解AI的话术并正确使用有效的提示词。如果没有正确使用提示词，很容易鸡同鸭讲。

图1-11 通过给AI发出指令，给雕像穿上衣服（使用instructPix2Pix生成）

总之，从文本、图片、视频这几个主流的内容形式来看，AIGC已然在其中疯狂“攻城略地”，取得了难以想象的巨大进步，它可以辅助人类创作甚至自动生成内容。是否会有那么一天，人类陷入AI构造的信息茧房，逃不出数据库的桎梏，这仍需时间的考验。

但从产业发展上看，AI的技术革新已经渗透到人类的日常生活，下沉为人人皆可使用的技术工具，这是非常可喜的变化。基于AI疾速发展带来的伦理和道德问题，或许会有一段时间的过渡期，我们须等待相关制度和规则的完善。但AIGC势如破竹地闯入了人类的领地，从此与人类相伴相生。