AIGC起源于 20 世纪 50 年代。经过多年发展,2022 年,AIGC产品集中发布,引发社会广泛关注。
AIGC起源于 20 世纪 50 年代,莱杰伦·希勒(Lejaren Hiller)和伦纳德·艾萨克森(Leonard Issacson)完成了历史上第一个由计算机创作的音乐作品《依利亚克组曲》(Illiac Suite)。1966 年,约瑟夫·魏岑鲍姆(Joseph Weizenbaum)和肯尼斯·科尔比(Kenneth Colby)共同开发了世界第一款可进行人机对话的机器人“伊莉莎”(Eliza),可通过关键字扫描和重组完成交互任务。80 年代中期,IBM基于隐马尔可夫模型(Hidden Markov Model,HMM)开发了语音控制打字机“坦戈拉”(Tangora),坦戈拉能够处理约 20000 个单词。80 年代末至 90 年代中期,由于高昂的成本无法带来可观的商业变现,各国政府纷纷减少了在人工智能领域的投入,AIGC没有取得重大突破。
20世纪90年代至21世纪初,AIGC领域进入沉淀积累阶段,AIGC逐渐从实验向实用转变,但受限于算法瓶颈,效果仍有待提升。直至2006 年,深度学习算法取得重大突破,同时期图形处理器(Graphics Processing Unit,GPU)、张量处理器(Tensor Processing Unit,TPU)等算力设备性能不断提升,互联网使数据规模快速膨胀,为各类人工智能算法提供了海量训练数据,因此,人工智能取得了显著的进步。2007 年,纽约大学人工智能研究员罗斯·古德温(Ross Goodwin)装配的人工智能系统通过对公路旅行中的一切所见所闻进行记录和感知,撰写出小说《1 The Road》。作为世界第一部完全由人工智能创作的小说,其象征意义远大于实际意义。其整体可读性不强,拼写错误、辞藻空洞、逻辑不严谨等缺点明显。2012 年,微软公开展示了一个全自动同声传译系统,该系统可以基于深层神经网络(Deep Neural Network,DNN),自动将英文演讲者的内容通过语音识别、语言翻译、语音合成等技术转化为中文语音。
2010 年以来,伴随着生成算法、预训练模型、多模态技术的迭代,人工智能技术在多个领域快速发展,人工智能生成的内容逐渐逼近人类水平。2014 年,伊恩·古德费洛(Ian Goodfellow)提出的生成对抗网络(Genrative Adversarial Network,GAN)成为最早的AI生成算法。2017年,一种完全基于注意力机制的新神经网络架构横空出世,该架构被称为Transformer。在这之后,基于流的生成模型(Flow-based Model)、扩散模型(Diffusion Model)等深度学习的生成算法相继涌现。2017 年,微软人工智能少女“小冰”推出了世界首部 100%由人工智能创作的诗集《阳光失了玻璃窗》。2018年,英伟达发布的StyleGAN模型可以自动生成图片,其使用的第四代模型StyleGAN-XL生成的高分辨率图片,依靠人眼已经难以分辨真假。2019 年,DeepMind发布了DVD-GAN模型用以生成连续视频,对草地、广场等明确场景的表现十分突出。
各类AIGC产品随着算法技术的应用逐步成熟,进入百花齐放的新时期,多款效果令人惊艳的产品诞生,并引发广泛关注。2021 年,OpenAI推出了DALL·E,并于一年后推出了其升级版本DALL·E 2,主要应用于文本与图像的交互生成,用户只需输入简短的描述性文字,DALL·E 2 即可创作出相应极高质量的卡通、写实、抽象等风格的绘画作品。2022 年 8 月,Stability AI发布Stable Diffusion模型,为后续AI绘图模型的发展奠定基础。AI绘画工具Midjourney于2022年3月首次亮相,同年8月迭代至V3版本,并开始引发广泛关注。由Midjourney绘制的《太空歌剧院》在美国科罗拉多州艺术博览会上获得“数字艺术”类别的冠军。2022 年 11 月,OpenAI推出基于GPT-3.5 与RLHF(人类反馈强化学习)机制的ChatGPT,推出仅两个月,日活跃量已达 1300万。2023年2月7日,谷歌正式发布AI对话系统Bard。2023年2月7日,百度宣布将发布大模型“文心一言”。世界范围内多款AIGC产品纷纷上市。