近年来,人工智能取得了重大进展,其中发展迅速的领域之一就是生成式人工智能。生成式人工智能是人工智能和深度学习的一个子领域,主要使用机器学习技术根据现有数据训练算法和模型,生成诸如图像、文本、音乐、视频等新内容。
要更好地理解人工智能、机器学习、深度学习和生成式人工智能之间的关系,如果我们将人工智能视为基础,那么机器学习、深度学习和生成式人工智能就代表着日益专业化和聚焦的研究与应用领域。
● 人工智能代表着广阔的领域创意生产系统——这些系统可以执行任务,表现出与人类相当的智力和能力,并能与生态系统交互。
● 机器学习是人工智能领域一个专注于创建算法和模型的分支,这些模型和算法使得上述系统能够随着训练学习实现自我改进。机器学习模型从现有数据中学习,并会随着数据的增长自动更新参数。
● 深度学习是机器学习的一个子分支。深度机器学习模型指的是 神经网络 (Neural Network),尤其适用于 计算机视觉 (Computer Vision,CV)或 自然语言处理 (Natural Language Processing,NLP)等领域。本书提到的机器学习模型和深度学习模型一般是指判别式模型,可根据数据进行预测或推理。
● 生成式人工智能是深度学习的一个子分支,不使用深度神经网络来聚类、分类或对现有数据进行预测,而使用强大的神经网络模型生成图像、文字表述、音乐和视频等新的内容。
图1.1形象地展示了这些概念之间的关系。
图1.1 人工智能、机器学习、深度学习和生成式人工智能之间的关系
你可以通过大量数据训练生成式人工智能模型,再利用这些数据中的模式生成全新样本。这一生成过程不同于判别式模型,因为后者旨在预测给定样本的类别或标签。
近年来,生成式人工智能取得了显著的进展,并广泛应用于艺术、音乐、时尚、建筑等多个领域。在某些领域中,生成式人工智能逐渐改变着原创者创造、设计甚至理解世界的方式;而在另一些领域中,其正在现有流程和操作的优化和效率的提升方面大显身手。
生成式人工智能的广泛应用,还意味着其模型可以处理不同类型的数据,例如文本、音频或图像。接下来,我们会介绍如何使用生成式人工智能模型处理不同类型的数据。
生成式人工智能的伟大应用之一是根据自然语言生成新内容,这也是本书重点介绍的应用。事实上,生成式人工智能算法可以用于生成新的文本,如文章、诗歌和产品描述。例如,OpenAI开发的GPT-3语言模型在经过大量文本数据训练后,可以生成以不同语言表述的连贯且符合语法规则的新文本(无论是输入还是输出),并能从文本中提取出相关特征(例如关键词、主题或完整摘要)。
图1.2所示的是ChatGPT答复用户提示并补充了参考材料的示例。
图1.2 ChatGPT答复用户提示并补充了参考材料的示例
接下来,我们介绍生成式人工智能在图像生成领域的应用。
就生成式人工智能在图像生成领域的应用来说,最早且最著名的示例之一是由Ian Goodfellow等人在2014年发表的文章“Generative Adversarial Networks”中介绍的 生成对抗网络 (Generative Adversarial Network,GAN)架构,这一架构能生成难以与真实图像区分的逼真图像。GAN有一些有趣的应用,例如为训练计算机视觉模型生成合成数据集、生成逼真的产品图像,以及生成用于虚拟现实和增强现实应用的逼真图像。
图1.3所示的虚构人脸图像均由人工智能(生成对抗网络)生成。
图1.3 由GAN StyleGAN2生成的虚构人脸图像(引自Random Face Generator官网)
2021年,OpenAI在图像生成领域引入了一个名为 DALL-E 的生成式人工智能模型。与GAN不同,DALL-E模型旨在根据自然语言描述生成图像(GAN则以随机噪声向量为输入),这些图像可能看起来没那么逼真,但足以表达所述内容。
DALL-E可以生成独特而富有创造力的图像,在广告、产品设计、时尚等创意产业中具有巨大的应用潜力。
图1.4展示了DALL-E根据自然语言描述生成的4张图像。
图1.4 DALL-E使用自然语言提示作为输入所生成的图像
注意,文本生成可以与图像生成相结合,以产生全新的素材。近年来,将二者结合的新型人工智能工具得到了广泛的应用。
Tome AI就是一个例子。这是一款基于人工智能的自动生成PPT的在线应用,除了基础功能,Tome AI还能利用DALL-E和GPT-3等模型从零开始创建幻灯片,如图1.5所示。
图1.5 一份关于生成式人工智能的演示文稿,完全由Tome AI使用自然语言输入生成
可以看到,Tome AI完全能够根据用户以自然语言输入的简短信息创建一个演示文稿。
生成式人工智能在音乐生成领域的应用可以追溯到20世纪50年代,当时的学者们在算法合成领域开展了相关研究,并将算法用于生成音乐作品。事实上,1957年,Lejaren Hiller和Leonard Isaacson创作了弦乐四重奏—— Illiac Suite ,这是第一首完全由人工智能创作的音乐作品。自此,学者们一直在研究如何使用人工智能生成音乐。在最近几年的发展中,新的架构和框架已经得到广泛应用,例如,谷歌在2016年推出的WaveNet架构能够生成高质量的音频样本;谷歌开发的Magenta项目使用 递归神经网络 (Recurrent Neural Network,RNN)和其他机器学习技术来生成音乐及其他形式的艺术作品;OpenAI于2020年推出的能生成音乐的神经网络系统Jukebox,可以根据音乐和声乐风格、类型和参考艺术家等信息自定义输出。
这些框架和其他框架为开发用于音乐生成的“人工智能作曲助手”奠定了基础。由Sony CSL研究开发的Flow Machines就是一个示例,这个生成式人工智能系统经过大量音乐作品数据库训练后,可生成各种风格的新音乐。法国作曲家Benoît Carré用Flow Machines创作了一张名为“Hello World”的专辑(参见Hello World网站),这张专辑收录了Flow Machines与几位人类音乐家合作的乐曲。
图1.6所示的是一首完全由Music Transformer(Magenta项目中的一个模型)生成的曲目。
图1.6 Music Transformer生成的曲目
在音乐领域,生成式人工智能的另一卓越应用是语音合成。事实上,有许多人工智能工具可以用知名歌手的声音作为输入来生成音频。例如,你想听Kanye West演唱某首歌曲的效果,便可以用诸如FakeYou、Deep Fake Text to Speech、UberDuck等工具来实现这一梦想,如图1.7所示。
图1.7 使用UberDuck进行文本转语音合成
不得不说,合成效果的确令人震撼。你甚至可以选用各种卡通人物(例如小熊维尼等)的声音来合成歌曲。
接下来,我们介绍生成式人工智能在视频生成领域的应用。
生成式人工智能几乎同时应用于视频生成和图像生成领域,其发展时间线相差无几。事实上,视频生成领域的关键进展之一是GAN的发展。得益于GAN在生成逼真图像方面的高准确性,研究人员开始将其应用于视频生成。最著名的示例之一便是DeepMind的 Motion to Video ,它仅凭一张图像和一系列动作就能生成高质量的视频。另一个典型示例是NVIDIA的 Video-to-Video Synthesis ( Vid2Vid ),它基于深度学习框架,使用GAN技术根据输入视频生成高质量的视频。
Vid2Vid可以生成时间上连贯的视频,这意味着视频能够随时间推移保持播放流畅且逼真。该系统可用于执行各种视频生成任务,如下所示。
● 变换视频风格,例如,将日间效果视频转换为夜间效果视频或将草图转换为逼真的图像。
● 修改现有视频,例如,更改视频中对象的样式或外观。
● 根据静态图像生成新视频,例如,将一系列静止图像动画化。
2022年9月,Meta的研究人员宣布推出 Make-A-Video ,这是一种新的人工智能系统,可以帮助用户将自然语言提示转换为视频剪辑。这一技术背后包含我们刚提到的许多其他领域的模型——用于提示的语言理解模型、用于图像生成的图像和运动生成模型,以及由人工智能作曲助手制作的背景音乐。
综上所述,多年来,生成式人工智能已经给众多领域带来了“冲击”,出现了许多足以给艺术家、企业甚至普通用户的工作提供支持的人工智能工具。相信随着技术的发展,生成式人工智能会有更广阔的应用空间!接下来,在了解OpenAI模型的相关内容之前,我们先介绍生成式人工智能的研究历程和新进展。