2022年11月,OpenAI公司推出了一款名为“ChatGPT”的人工智能聊天程序。起初人们还认为ChatGPT只是一款类似于AI小冰或Siri的对话软件。这些对网络数据进行简单筛选并给出模板式回答的软件已经很难获得用户的认可,其不自然的沟通方式、答非所问的结果、对复杂问题难以理解等局限性,都是AlphaGo问世以来人工智能热潮逐渐退去的原因之一。
然而,ChatGPT的用户们很快发现,这个聊天程序似乎真的能聊天了——不论用户输入的是口头表达、规范化表达或者以暗示的方式提问,它都能很好地理解用户的意图,并用流畅的语句回答问题。《纽约时报》称其为“有史以来向公众发布的最佳人工智能聊天机器人”。一时间,AIGC再次成为关注的焦点。
ChatGPT从2022年11月发布到2023年的1月,短短两个月里用户量已达到1亿,其规模之庞大、影响力之广令人咂舌。虽然用户在使用过程中发现ChatGPT依旧存在一些漏洞与错误,比如对除英语外的其他语言理解能力不够强、偶尔会为了回答问题而无中生有地捏造事实等,但瑕不掩瑜。随着用户对ChatGPT的深入体验,其逼真的回答仿佛是人为在程序后台提供一对一的服务。它模仿着人类创作文章、写诗作词、扮演角色、编写调试代码等,几乎人类能第一时间想到的针对人工智能的测试,它都能轻松应对。
这是人们第一次亲身体验到,人工智能已经变得如此强大!其用户群体覆盖了工程师、学生、教师、艺术家等,一时间在社会上引起了巨大的轰动。2017年,以AlphaGo为代表的人工智能应用还停留在简单的判别式人工智能,对此有些人甚至不愿意称之为“智能”,因为它只是一种机械式的反馈,缺少人类最重要的主观性和感性。人们普遍认为围棋博弈有客观的输赢判断,而人类日常对话、写作、绘画艺术中的主观性与感性是人工智能所无法学习到的知识。虽然ChatGPT等新兴的AIGC技术依然无法达到自主产生与人类相似的主观性和感性认知,但这些技术却可以在某种角度上被认为是它们理解了人类天马行空的想法,包括感性的意境及语言。将心中所想告诉AIGC,它便可以创作出符合用户想法的作品与产品时,这样的AI是否也算是接近人类了呢?
其实,在ChatGPT火爆全球之前,AIGC的一项爆款产品已经引发了艺术界的震动,那就是2022年发布的开源AI绘画项目“Stable Diffusion”。如果说AlphaGo的出现是对人类引以为傲的智力博弈的当头一棒,那“Stable Diffusion”系列的AI作画技术无疑使人类艺术创作者们惊出了一身冷汗。它是基于2020年一项名为去噪扩散概率模型(denoising diffusion probabilistic model,DDPM) [17] 技术做出的改进版本。它的功能是通过输入相关的提示词与内容描述生成对应的图像,其画作精细、内容准确,甚至在推出的短短几天就有一些天马行空的作品诞生。输入“咒语”就能获得所想之画,这样的应用如同哈利·波特世界的魔法一般令人着迷!
回顾AI绘画的技术发展我们会发现,从2021年OpenAI推出DALL-E [18] 项目开始,AI绘画模型就已经有很好的文图生成能力了。DALL-E能够很好地生成文字所描述事物的对应图像,即使是现实中不存在的事物,比如“一把牛油果形状的椅子”(图1-9)。这一惊艳的效果背后是庞大的模型参数量与大量数据的支撑,OpenAI推出的DALL-E项目由于技术保密性与难以复现的问题,并没有受到市场与行业外的过多关注,但却开启了文本生成视觉这一AIGC的大门。同年11月,北京大学与微软亚洲研究院合作推出了名为“女娲”的模型 [19] ,更是在国内引发了AIGC的研究热度。
图1-9 由DALL-E生成的“一把牛油果形状的椅子”
在一年的技术沉淀后,OpenAI在2022年推出了功能更加强大的DALL-E 2,但其仅仅在网上提供了使用的途径,并不提供具体技术模型。相比于第1代DALL-E,这一代展现了更加强大的提示词与文本描述的理解能力,对应生成的图像也更为准确与精细。基于与OpenAI类似的保密需求,谷歌在2022年5月以论文的形式公布了他们的文—图生成模型Image,这一基于庞大算力与数据的技术让一众研究者认为这一领域可能会被这些人工智能巨头公司所垄断。然而,2022年8月,“Stable Diffusion”项目的发布撕开了这道封锁,该技术不仅拥有当时主流的图像生成技术的性能,还将所有技术内容与最后训练完成的模型公开了出来。一时间,AI图像生成技术的应用门槛被大幅度降低,人们争先在这一基础之上进行技术开发和研究。
技术开源的魔力是巨大的,任何人只要有一张高端的商用显卡,就可以在自己的电脑上部署这一技术。这项技术很快就从几家AI巨头公司研发的规模扩大到全民AI绘画研究的规模,其进步的速度也日新月异。2023年开春,一项基于Stable Diffusion的技术ControlNet问世。它提高了文—图生成的灵活性与可编辑性,真正地让操控这项技术的人实现了随意作画的想法。这一技术的出现彻底引发了广大美工绘画工作者的不满与抗议,部分消极的绘画从业者认为这项技术几乎可以取代他们的工作。
这种由文字生成图像的范式很快被拓展到其他领域,包括文字生成视频、文字生成3D建模、文字生成音乐等。自2023年3月以来发布的Gen2、虚幻引擎5的视频转建模技术、Paranormal Studio推出的视频编辑技术都在各自领域中实现了前所未有的突破。AIGC仿佛是一座积压了多年的火山,在ChatGPT与Stable Diffusion的引燃下彻底爆发。
AIGC应用的涌现引起了社会的广泛讨论。其智能化程度的大幅度提升以及在一定程度上可替代人类部分工作带来的社会影响让人们感受到AIGC背后隐藏着不可控制的风险。
ChatGPT的开发团队认为AIGC是通用型人工智能的开始,一部分人认为其智能仍然是数据与任务驱动下的数据分析产物,并不代表着其与人类一样具有智慧,而有的人则认为人工智能已经超越了人类。在信息大爆炸的时代,我们想要拨开层层迷雾看清楚AIGC的定位及其发展趋势,就需要明白AIGC的技术原理与运行逻辑。
AIGC的本质是基于训练好的模型对输入数据进行预测和生成。用户提供输入内容,如一段文本、问题或图像,模型根据输入内容和内部学习到的知识生成相应的输出内容。这个过程可能涉及从给定的上下文中选择最佳的单词或短语,或者根据用户输入内容生成全新的句子或段落。在这样一个简单的运行逻辑之下,从输入端到输出端、从训练过程到推理过程、从高维数据到知识表征,都是AIGC不可缺少的研究环节。当下一部分人讨论了AIGC的局限性,比如:AIGC的能力取决于训练数据的质量和数量,如果训练数据存在偏见或错误,AI模型可能会生成具有偏见或不准确的输出内容。这种局限性是当前人工智能的技术原理与运行逻辑带来的不可避免的客观事实,类似的局限性还有很多。
总的来说,AIGC是一项拥有几十年研究基础的技术,要深入了解其工作原理需要有相应的机器学习知识积累,这对于广大非计算机学科专业的用户来说是一项困难的学习任务。在前面的篇幅中,我们大致科普了AIGC乃至当下大部分人工智能的基础——深度学习。接下来的章节中,本书将在深度学习的基础上,进一步揭示AI如何学习知识、AIGC如何产生视觉作品以及AIGC是怎么合成声音与对话文本的。只有客观地认识AIGC的内在原理,我们才能了解技术,善用其利。