购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

AIGC的崛起:从AI艺术品到产业革命

2022年8月,在美国科罗拉多州举办的数字艺术家竞赛中,一幅名为《太空歌剧院》的画作获得了数字艺术类别的冠军。但这一绝美的画作并没有让艺术家们心服口服,反而引起了巨大的争议,众说纷纭的源头在于这幅冠军作品并非作者亲自绘画,而是使用AI算法绘图工具Midjourney替代完成的(见图1-7)。

img

图1-7 获奖艺术作品《太空歌剧院》

生成来源:Midjourney。

人类艺术家愤怒了。艺术家们表示,使用AI生成图像是在使用高科技手段作弊,这些画作也不能被称为艺术作品。“AI画作作弊”这一话题的争议在世界范围内迅速发酵,登上了国内外的网络热搜。

如果说AI绘画第一次让用户感受到了AIGC的独特魅力,那么ChatGPT的横空出世则更加令世人为之震惊。AI创作的强势崛起,正式地让全世界看到了AIGC的真正实力。

● 被ChatGPT带“火”的AIGC

AIGC作为新的生产力引擎,通过智能算法,批量、自动化地生产内容,生成的内容形式丰富多样,文本、图像、音频、视频,甚至3D模型和代码都能“信手拈来”。基于AIGC模型的创作速度、创作质量、创作成本,以及创作的传播效应,都远远超过传统的内容生产方式。

ChatGPT虽然只是AIGC商业化落地的一个分支,但却是让人们最“震撼”的一个壮举,因为它具备了“人性思维”。GhatGPT似乎能够理解文本的更深层次含义,连续流畅的对话反馈和对错误的及时纠正,都暗示着AI拥有更高的“情商”和“心智”。AI生产出的内容不再是机械化的固定脚本,而是真正可以产生共鸣的交流内容。AIGC也从遥远抽象的概念逐步转变为生动形象的产品形式,给人们带来“流连忘返”的丰富体验。

“AIGC将颠覆现有内容生产模式,可以实现以十分之一的成本,以百倍千倍的生产速度,创造出有独特价值和独立视角的内容”,百度董事长兼首席执行官李彦宏在2022世界人工智能大会上如是说。

过去,AI只能协助人类完成内容生成中最简单、最基础的部分工作,无法独立生成内容,更不要提优质的输出内容。如今,这一情况正在因AIGC生成模型的开源应用而被打破,AI技术也因此实现了“进化”。

2022年是AIGC生成模型奇幻发展的一年,科技领域人士和专业学者发表了一系列引人注目的相关论文。其中,人机对话方面诞生了如雷贯耳的ChatGPT,DreamFusion模型生成了不可思议3D模型,Stable Diffusion 创造了超现实主义艺术AI绘画,Make-A-Video则迎来了从文本生成视频的突破。

AIGC丰富的想象力和惊为天人的创作能力,都是基于大量的数据标注和模型训练生成的。卷积神经网络和Transformer大模型的流行成功地使深度学习模型参数量跃升至亿级,OpenAI更是收集了4亿个文本图像配对,在45TB的数据量上完成了浩大的“预训练”参数计算任务。海量数据的不断迭代推动了AIGC发展的进程。

正是有了海量数据的加成,借助宝贵的语料库资源,AIGC得以在内容创作方面拥有了无限的思维灵感。同时,AI工具仿佛是超级画手或作曲家,能够模仿特定的艺术家,生成指定风格的图像、音乐或视频。未来,AIGC技术在时间短、规模大、风格多等技术特点上的融合趋势将进一步得到加强。

拥有一定程度的认知和交互能力,是AIGC技术发展的重要趋势。开发者使用代码的输入输出解释人与计算机进行交互的底层逻辑,而用户则使用智能终端和网络平台实现人机交互与互联通信。AIGC的出现为人与机器之间的沟通带来了更多可能,其利用自动问答、视觉识别等技术实现了更加多元化的人机交互效果。

海量数据、内容创造力、认知交互,三者共同驱动着机器的智能创作活动,让AIGC成为“新一代”不可替代的内容生产方式。AIGC以其在人工智能领域的重要成果,被Science评为2022年度科学十大突破,其底层技术和产业生态已经形成了新的格局。

2022年被称为AIGC元年,迅猛的全新的AI发展已成不可逆之势。

● AIGC的前世今生

穿越历史周期,结合人工智能的历史演进,AIGC的发展大致可以分为四个阶段:

早期萌芽阶段(20世纪50年代至90年代中期)

20世纪中后期,受限于当时的计算机水平,AIGC技术仅限于小范围实验。当时,AIGC主要应用在创作音乐、简单的对话机器人和语音打字机等领域。

莱杰伦·希勒与伦纳德·艾萨克森在1957完成了历史上首支由计算机创作的音乐作品《伊利亚克组曲》。1966年,约瑟夫·维森鲍姆和肯尼斯·科尔比共同推出了世界上首款人机可对话机器人Eliza,通过关键字扫描和重组来进行互动。在20世纪80年代中期,IBM基于隐形马尔科夫模型创造了语音控制打字机“坦戈拉”。然而在20世纪末期,高昂的研发与系统成本让AIGC的商业变现模式难以落地,AIGC的发展暂时受阻停滞。

沉淀积累阶段(20世纪90年代中期至21世纪10年代中期)

随着深度学习等人工智能技术的出现以及计算设备综合性能的提升,AIGC的实用性不断地增强,逐渐开启了商业化的探索。在数据源层面,互联网技术的发展引发了数据规模的快速膨胀,AIGC发展取得了显著进步。

该阶段的典型技术代表作,是微软在2012年公开展示的基于深度神经网络(DNN)的全自动同声传译系统,该系统可以自动将英文演讲者的内容通过语音识别、语言翻译、语音合成等技术动态合成为中文语音内容。但由于当时算法性能面临瓶颈,导致创作任务的完成质量限制了AIGC的广泛应用。

快速发展阶段(21世纪10年代中期至2021年)

随着深度学习算法的不断迭代更新,AIGC的新时代正式开启,机器生成内容在图像、视频、音频等领域均产生诸多重要的应用实践与技术创新。

2014年,生成式对抗网络(GAN)出现,AIGC进入了生产内容多样化的时代,且产出的内容效果更加逼真。2017年,微软的人工智能少女“小冰”创造了世界首部全AI创作的诗集《阳光失了玻璃窗》。2019年,DeepMind发布了可生成连续视频的DVD-GAN模型。2021年,OpenAI推出了DALL-E模型,并于2022年将其升级为DALL-E2。该产品可根据用户输入的简短描述性文字,自动生成与文本对应的图像内容,得到极高质量的图像绘画作品。

爆发与破圈阶段(2022年至今)

2022年AI画作的问世,ChatGPT的火爆出圈,都让AIGC的发展得到了空前的进步。

2022年5月,Google推出了文本图像生成模型Imagen;2022年8月,AI绘画工具Stable Diffusion发布;2022年11月,OpenAI推出了AI聊天机器人ChatGPT;2023年2月,微软宣布加入ChatGPT,推出ChatGPT可支持的新版本的Bing搜索引擎。

2023年3月14日,OpenAI官方宣告多模态大模型GPT-4重磅登场。相较于GPT-3.5,加入了新模态的GPT-4,在语音、统计表格,以及网络图片等多项特殊内容的合成能力上取得了“可圈可点”的突破。紧接着,微软把GPT-4全面接入Office产品序列,整合出了办公软件的“王炸”产品——Microsoft 365 Copilot,开启了AI桌面新革命。至此,AIGC正式进入了爆发阶段。

从AI到AIGC,是从感知世界到创造世界的系统能力跃迁。AI技术的突破创新,如智能算法、预训练大模型、多模态信息处理等技术,都为AIGC的“大爆发”提供了强有力的底层数据应用能力支撑。

传统AI像经过专业学习的职业应用者,AIGC更像是接受过通识教育的大学生,有着很强的可拓展性。比如,很多平台现在用智能客服AI替代人工客服,但智能客服只能按照事先设计好的话术进行交流,一旦超出规定的场景和语境,智能客服的处境就变得很尴尬。这样的例子还有很多,很多人家里都买了可以播放音乐或音频的机器人,还可与它们进行简单交流,但这些交互功能都是程序事先设定好的。机器人不能想说什么就说什么,不能做到真正的聊天。

AIGC相比传统AI,“主动”和“被动”是二者之间的根本差别。AIGC开始和人一样,有自己的思想了,虽然这种思想也是由人来引导的。传统的AI重在解决某一类问题,AIGC更多在于解决广泛的任务类型。传统AI重点在于分析内容,而AIGC已具备生成新事物的能力,不仅局限于分析已经存在的东西,更重视创造内容。

ChatGPT是典型的文本生成式AIGC,自然语言的理解能力是AIGC发展的一个首要的关键环节,对文字和语音模态的应用具有重要意义。ChatGPT实际就是基于自然语言的交互式聊天服务,用户对相关技术产品的“上手”成本很低。ChatGPT引入了一个新的训练方法RLHF,即在基于大数据的模型预训练中加入了人类的评价反馈意见,使其生成的内容在有效性和准确度上都有了大幅的提升。

AI绘画是AIGC的重要应用领域,Diffusion扩散模型是AI作画应用的重要算法模型基础。OpenAI发布的用于匹配文本和图像的神经网络模型CLIP,则被认为是近年来在多模态研究领域的杰出成果,它不仅能对文字进行语言分析,还能对图形进行视觉分析。Diffusion+CLIP的完美组合让AI自动生成文字和图片的质量得到了质的提升,通过不断调整两个模型的内部参数,达到文字和图像更高度匹配的效果(见图1-8)。在这一过程中,“开源”的技术产业模式也进一步促进了AIGC的传播和普及。

img

图1-8 绘画作品《冬季小木屋》

生成来源:Stable Diffusion。

AIGC的发展迎合了数字内容强需求、视频化、创意新的螺旋式升级发展特征,正在越来越多地参与到数字内容的创意性内容生成活动中。通过人机协同的方式持续释放数据资源的价值,AIGC有望成为Web 3.0的内容生成基础设施,也将成为打造虚实集成世界的重要技术基石。

● AIGC的内容形态

随着深度学习模型不断完善,开源模式的全面推动,以及大模型的广泛商业化探索,AIGC将伴随充沛的市场需求加速产业应用落地。随着数字经济与实体经济融合程度的不断加深,以及微软、字节跳动等平台型巨头的数字化场景向元宇宙转型,人类对数字内容总量和丰富程度的整体需求正在不断提高。

AIGC作为当前新型的内容生产方式,已经重构了内容消费领域的应用生态,率先在数字化程度高、内容需求丰富的领域取得了创新发展。AIGC已在不知不觉中渗透到人们日常生活中的每个角落,从手机软件中的“人声”问答,到直播中的“虚拟人”主播,它的身影无处不在。

人们在享受丰富数字生成内容带来乐趣的同时,人机交互和人类反馈强化也同时促进了AIGC的成功。AIGC的出现可以协助企业从不同领域共同提升生产质效,这也为AIGC提供了普适性的模型优化思路。以ChatGPT为延伸的AIGC底层技术已被逐渐应用,并迁移到以下内容形态:

文本生成领域

文本生成是AIGC实现商业落地最早的技术之一,其发展显著提高了数据模型面向对话对上下文的理解能力、对知识的嵌入能力、对内容的创造能力,以及生成内容的内在逻辑性等。

AIGC文本生成技术的现有落地场景主要集中在应用型文本生成、创作型文本生成,可以快速生成诗歌、小说、剧本、新闻等内容,并且允许指定写作风格;基于相关文本生成模型,甚至可以根据对用户需求的自动分析,完成邮件撰写、通用写作、记录笔记等各项文字创作任务。

音频生成领域

AIGC的音频生成技术主要应用在乐曲、有声书的内容创作,以及游戏、影视等领域的配乐创作,在众多场景已取得发展,得到广泛应用并逐渐趋于成熟。AIGC以及语言处理技术在音频互动产品中的应用,融合实时语音及音频娱乐等产品形态,进一步加快了产品创新步伐,持续赋能受众用户和内容生产者。

2021年9月,索尼计算机科学实验室发布了一款AI辅助音乐制作应用程序Flow Machines Mobile,该程序能够根据创作者选择的风格、旋律、和弦和贝斯线,利用AI技术辅助完成音乐制作(见图1-9)。同月,喜马拉雅用语音合成(Text to Speech,TTS)技术完美还原了单田芳先生的声音,并首次将单田芳先生的AI合成音——单氏评书腔调应用于书籍,演绎听众耳熟能详的经典之作。

img

图1-9 辅助音乐制作应用程序Flow Machines Mobile

图像生成领域

AIGC绘画技术的应用领域广泛,例如美术教育、广告设计、游戏开发、动画制作等。在美术教育方面,AIGC绘画可以为学生提供多样化、高质量的绘画作品,帮助他们快速提高绘画技能和水平;在广告设计和游戏开发方面,AIGC绘画可以帮助设计师快速生成创意和美观的广告和游戏画面,提高设计效率和质量;在动画制作方面,AIGC绘画可以快速生成动画帧,节省制作成本和制作时间,帮助画师高效率地设计新的故事角色和场景等。

2022年10月,Stability AI 获得1亿美元融资,估值达10亿美元,成功跻身独角兽行列。Stability AI的开源产品Stability Diffusion可以根据文字提示自动生成图像(Text to Image,T2I)(见图1-10)。此外,以Stability Diffusion为首,DALL-E2、Midjourney等模型生成的AI图片瞬间引爆了绘画领域,AI作画的成功标志着人工智能迅速地向艺术领域渗透。

img

图1-10 Stability AI宣传内容展示

视频生成领域

AIGC视频生成技术的原理与图像类似,但视频编辑任务比在图像上操作更具挑战性,需要在图像的基础上合成新动作,并保持时间维度的内容一致性。视频生成的应用场景主要集中在视频属性编辑、视频自动剪辑、视频部分编辑,前者已有大量应用落地,后两者还处于技术尝试阶段。

2022年9月,Meta公司公布了旗下“Generative AI”研究项目的最新人工智能系统Make-A-Video,该系统不仅可以通过文本描述直接生成视频,还可以从图像或类似的视频中再生成视频(见图1-11)。随后,Google也发布了两款文本转视频的智能化工具,分别为强调视频品质的Imagen Video和主打视频长度的Phenaki。这较此前提到的文本生成图像来说又是新一轮的技术升级。

img

图1-11 Meta AI宣传内容展示

游戏生成领域

当前,AIGC在游戏生成领域的应用主要在图像渲染等画面美工方面。游戏中包含文本、图像、音效、音乐、3D模型、动画、电影、代码等多种类型的文件数据资源,是娱乐以及媒体行业最复杂的形态。随着AIGC的广泛应用,未来能够根据文本生成语音,根据主题生成场景,根据二维图像生成三维模型,有效提升游戏在策划、音频、美术、程序等环节的综合生产力,压缩游戏的整体项目研发周期与人员投入规模,大幅降低游戏制作的总体成本。

多家公司已经将AI技术广泛融入了热门游戏的开发中。比如,腾讯AI Lab已在《王者荣耀》游戏中运用了决策AI引擎“绝悟”(见图1-12);网易互娱旗下的AI Lab产品也已经灵活运用于《梦幻西游》和《一梦江湖》等热门游戏的开发中;此外,在游戏作品《Cognition Method》中,也多处使用了AI绘画软件,来制作概念原画和生成素材。

img

图1-12 《王者》“绝悟”人工智能体验空间

3D虚拟场景领域

在3D短视频领域引入AIGC技术,相当于重新定义了3D内容生产活动,降低了3D创作工具的使用门槛。普通用户可以在文本框中直接输入想要展示的视频内容,系统能够自动识别相应文本的语义需求,并根据提示生成3D模型。

2022年初,Facebook创始人马克·扎克伯格首次推出了Meta新系统“BuilderBot”,根据语音描述的环境,自动创建相应场景的元宇宙虚拟世界(见图1-13)。与BuilderBot类似,苹果也将推出与AI联合的全新语音助理Siri,用作三维场景的创建。用户只要通过语音交互告诉Siri想象中的虚拟动物,以及它们在场景中的移动方式,系统便可准确构建出相应的场景。除此之外,系统还可以计算出物理空间中的障碍物,并为虚拟动物附加自然的物理交互效果。

虚拟人

AIGC是支撑虚拟数字人应用的关键技术,多模态信息的生成理论与技术的突破,驱动了数字人从动态交互阶段迈向智能化阶段,拓展了数字人的产业应用领域,虚拟偶像、虚拟主播、虚拟人等多重创新产品形态迅速崛起。背靠AIGC技术,虚拟人可以充分模拟人与人之间真实可感的对话,达到“可看”“可听”“可互动”的效果,给用户提供了一种更真实、更舒适的交流体验(见图1-14)。

img

图1-13 BuilderBot创建的虚拟世界

img

图1-14 “数字人”技术产品概念图

AIGC 技术顺应了内容行业发展的内在需求,能够以更少的成本、更快的速度,生成面向不同内容形态领域的更加个性化的数字场景,支持数字内容与产业的多维互动与融合渗透,孕育新的业态模式。此外,AIGC能够提升元宇宙内容的制作效能,复刻元宇宙的持续性、实时性和可创造性,极大地扩展元宇宙想象空间与商业前景。

AIGC相关领域的算法和应用的落地,意味着AI技术已经进军到了先前人类独占的科学和艺术等高端认知活动领域,AIGC的“高产能”成为许多国内外互联网科技巨头的竞争高地,并且逐渐形成了一场“抢地战”。

亚马逊与AI制图平台Stability AI合作,成为其首选的云合作伙伴,同时为其提供亚马逊Tradium芯片;谷歌向人工智能初创公司Anthropic投资4亿美元,布局ChatGPT的竞争产品。在国内,华为诺亚方舟实验室联合多部门推出了首个2000亿参数中文预训练大模型盘古α;腾讯发布了写稿机器人Dreamwriter,根据算法在第一时间自动生成稿件,瞬时输出分析和研判;阿里巴巴旗下AI在线设计平台“鹿班”着力开展海报设计的生产应用;百度发布了AI艺术和创意辅助平台“文心一格”,用来快速生成AI画作。

AIGC 汹涌向前的发展趋势以及不断进化的深度学习技术,有效地协助创作者从辅助索引到内容呈现,极大地提高了内容创作者阅读和搜集信息材料的效率,也刺激着他们的思考与创作体系不断完善和升级。 O3C6jjiHFzylkXr5p6PaJSu3R5mkOn5noBPqjEdffH0xiqOu2zqQMJGwJcxui/2N

点击中间区域
呼出菜单
上一章
目录
下一章
×