购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第三节
AIGC与万物生成

一、AIGC发展中的几款重要产品与公司

人工智能的发展可以分为三个重要阶段。第一个阶段为计算智能,即让计算机能存会算,机器开始像人类一样会计算,能够传递信息。第二个阶段为认知智能,能说会听,能看会认。例如,完全独立驾驶的无人驾驶汽车、自主行动的机器人。它的价值是可以全面辅助或替代人类部分工作。第三个阶段为感知智能,是目前的最高阶段,它要求系统或机器能理解并且会思考,这是AIGC领域正在努力的目标。

然而,回顾AIGC应用发展史,最早期AIGC应用要追溯到AIGC的初期研究阶段,图1-2展示了AIGC发展的三个阶段及重要事件。在这个阶段,人工智能研究的主要目标是开发能够执行符号逻辑的计算机程序,如专家系统和语言处理系统等。

最早的AIGC应用出现在20世纪50年代,是历史上第一台可以执行简单任务的机器人,如可以在指定区域内移动物体。20世纪50年代和60年代,人们开始探索如何通过语音与计算机进行交互,这时候人类最早的对话系统程序是1966年开发的心理治疗机器人——Eliza,这也是第一代基于一定规则的对话系统。随着时间的推移,语音识别技术得到了持续的改进和发展,逐渐成为现代AIGC应用的一个重要组成部分。

图1-2 AIGC发展三个阶段及重要事件

(资料来源:中国信息通信研究院)

当AIGC产业进入20世纪80年代和90年代,AIGC应用的重心开始转向了专家系统和机器学习技术。专家系统可以理解为一种基于知识库的AIGC应用,可以根据预先定义的规则和知识来推理和决策,而机器学习则是一种可以让计算机通过数据学习来改进算法的技术。

这一阶段出现的系统主要有医疗诊断系统、故障诊断系统和智能辅助设计系统等。随着机器学习理论的发展,人工智能开始逐渐向实际应用转化,基于机器学习的算法和系统被开发出来,如神经网络、支持向量机和决策树等。

谷歌翻译是一款由谷歌公司开发的在线翻译工具,采用了AIGC技术。这款工具可以实现多种语言之间的翻译,并且随着技术的不断提升,翻译质量也在不断提高。

伴随着计算机硬件和算法的发展,AIGC应用的能力得到了持续提升。21世纪初,出现了一些引领AIGC应用发展的突破性技术,如深度学习、大数据和云计算等。这些技术的出现,使得AIGC应用可以处理更大规模的数据和任务,也让AIGC的应用范围更加广泛和深入。

谷歌在2001年推出的对话系统Meena,人工测评的分数是79分,而人类的水平是86分,也就是说,此时在AIGC的技术演进下,机器已经非常接近人类的水平了。

在社交方面,游戏《第二次人生》( Second Life )于2003年问世,是一个虚拟的3D社交世界,也是AIGC技术最早的商业应用之一。用户可以在虚拟的世界里自由地创建角色、交友、购买虚拟商品等,创造出一个全新的社交体验。

图1-3 首部由AI创作的小说 1 the Road 封面

2007年,首部人工智能装置完成的小说 1 the Road 问世(图1-3),2012年微软展示全自动同声传译系统,主要基于“深度神经网络”(Deep Neural Network, DNN)也能够自动将英文讲话内容通过语音识别等技术生成中文。AICG应用也正式进入百花齐放的时代。

如今,我们已经进入了AIGC的应用普及阶段,随着硬件技术的更新换代,特别是云计算、大数据和5G物联网技术的普及,人工智能应用开始进入万物互联的时代。AIGC应用不断突破创新,包括第一个手机助理Siri、微软小冰、谷歌的home,还有Amazon的echo等一系列的产品。

例如,AlphaGo是由DeepMind研发的人工智能围棋程序,AlphaGo的核心技术就是AIGC,可以通过自我学习来不断提升自己的棋艺。它在2016年击败了韩国顶尖职业围棋棋手李世石,引起了广泛的关注。

同年,苹果公司打造了一款语音助手Siri,它可以回答用户的问题、执行指令等。Siri的核心技术就是AIGC,它可以通过语音识别、自然语言处理等技术,实现智能化的交互体验。

2017年微软人工智能少年“小冰”推出世界首部由人工智能写作的诗集《阳光失了玻璃窗》,2018年英伟达发布StyleGAN模型可自动生成图片,2019年DeepMind发布DVD-GAN模型可生成连续视频,2021年OpenAI推出DALL·E并更新迭代版本DALL·E 2,主要用于文本、图像的交互生成内容,这些产品代表了AIGC技术在不同领域的应用,为AIGC技术的发展奠定了基础。随着AIGC技术的不断发展和应用,未来还将会有更多的AIGC产品出现。

今天,AIGC在各个领域的应用越来越广泛,各行业的应用场景越来越丰富,如智能制造、智能医疗、智慧城市等,人工智能已经成为推动经济发展的重要引擎之一,这不仅为我们带来了更加便利的生活体验,也为经济发展带来了新的机遇和挑战。

二、AIGC文本的发展历程与趋势

AIGC文本的发展历程可以追溯到20世纪50年代,当时研究人员开始使用计算机进行语言翻译。在随后的几十年里,AIGC文本处理的技术得到了大幅度提升,包括机器学习、深度学习等技术的应用,以及自然语言处理(NLP)的发展。近几年,随着互联网的普及和数据爆炸式增长,以及计算能力的提高,AIGC文本处理的应用领域也在不断扩展。AIGC主要发展历程和趋势可以归类如下。

(一)基于规则的方法(早期阶段)

早期的人工智能文本处理是基于规则的方法,这种方法需要人工对语言的规则进行建模和编程。然而,这种方法需要大量的人工工作,而且很难应对语言的多样性和复杂性。

(二)统计机器翻译(SMT)

统计机器翻译是在20世纪90年代发展起来的一种基于统计模型的机器翻译方法。这种方法基于大量的语料库,通过统计模型来生成翻译结果。虽然这种方法在一定程度上提高了翻译的准确性,但是它在语言的多样性和复杂性方面依然面临挑战。

(三)神经机器翻译(NMT)

神经机器翻译是在2014年前后兴起的一种新型的机器翻译方法,该方法使用深度神经网络来实现翻译任务。相比于SMT, NMT方法能够更好地处理语言的多样性和复杂性,其在翻译准确性上表现更优秀。

(四)预训练模型

预训练模型是一种新的机器学习方法,其可以通过大规模无标注数据进行预训练,再通过少量有标注数据进行微调,从而在各种自然语言处理任务上取得很好的效果。常见的预训练模型包括BERT、GPT等。

(五)深度学习和强化学习

深度学习和强化学习是目前人工智能文本处理的主要技术之一。这些技术已经在各种自然语言处理任务中得到广泛应用,如情感分析、文本分类、语音识别等。

(六)多语言处理

随着全球化的发展和互联网的普及,越来越多的应用需要处理多种语言。因此,多语言处理成为人工智能文本处理的一个重要趋势,例如,跨语言信息检索、多语言机器翻译、多语言情感分析等。

(七)跨模态文本处理

跨模态文本处理是指同时处理文本和其他类型的数据,如图像、音频、视频等。这种技术的应用可以提高文本处理的效率和准确性,如通过图像识别帮助文本分类、通过音频识别帮助语音翻译等。

(八)可解释性和公平性

随着人工智能应用的普及,可解释性和公平性也成为人工智能文本处理的重要问题。可解释性指的是人们可以理解机器学习算法的决策过程,从而更好地信任和使用这些算法。公平性指的是机器学习算法应该不受人类偏见的影响,对所有人都公平。因此,人工智能文本处理需要不断探索解释性和公平性的技术和方法。

AIGC文本处理的发展历程已经经历了从规则到统计再到神经网络的演进,继续推进深度学习、预训练模型等技术的应用是AIGC比较大的发展趋势,相信在不久的将来我们可以看到更多AIGC文本处理的新应用。

三、AIGC图像的发展历程与趋势

图像生成是AIGC的主要应用领域,近年来以OpenAI、谷歌、Stability AI为代表的公司一直在全力发展图像生成领域的研究。Stable Diffusion的开源更是加快了这一领域发展步伐,其生成高质量的图像几乎和真实图像无法区分(图1-4)。

图1-4 由Stable Diffusion AI生成的图像

AI作画的历史要追溯到1973年,加利福尼亚大学教授哈罗德·科恩(Harold Cohen)开发了首个利用机械臂作画的AI艺术家(图1-5展示了AARON和哈罗德的创作过程),他的概念是建立一个拥有自己的行为模式的人工智能艺术家。AARON的创作方式也独树一帜,它借助电脑程式和机械臂设备,产生了无与伦比的艺术作品。它们以前所未见的样式出现在画布、电脑屏幕和纸上。

图1-5 哈罗德·科恩和AARON

AARON的工作不仅局限于计算机艺术,它也尝试在传统媒体上创作,如水彩画和版画,并在音乐和艺术领域中创建了完整的系统。他的工作影响了后来计算机艺术和艺术领域的发展趋势,同时也推动了艺术和科技之间的融合。AARON的代码没有开源,所以其作画的细节无从知晓,但可以猜测,AARON只是以一种复杂的编程方式描述了哈罗德本人对绘画的理解。AARON的作品在世界各地展览,并获得许多奖项,它的工作对于计算机艺术的发展有着极为重要的影响,开启了全新的可能性,改变了艺术和科技的关系。

2014年,伊恩·古德费洛(Ian Goodfellow)首次提出Generative Adver-sarial Network (GAN)的概念,他在博士论文中描述了GAN的基本框架(图1-6)。正如同其名字“对抗生成”,这个深度学习模型的核心理念是让两个内部程序“生成器”和“判别器”互相PK平衡之后得到结果。GAN模型一经问世就风靡AI学术界,并成为很多AI绘画模型的基础框架。GAN的出现也大大推动了AI绘画的发展。

图1-6 伊恩·古德费洛提出的GAN模型图

2019年,深度学习研究对GAN的研究取得了重大进展,提出了许多新的算法,如StyleGAN、BigGAN、StarGAN等,这些算法都取得了很好的成绩,可以利用GAN生成更加真实的图像。

2020年,有更多新的算法和模型被开发出来,如DALL·E、SPADE、StyleFlow、Self-Attention GAN、BigGAN-Deep等,这些算法能够更好地利用GAN技术,实现更加深入的深度学习任务。

在AIGC技术快速发展的同时,AI在图像生成领域已经取得了长足的进步,无论是文本生图、图生图或是图像质量提升方面都已经达到了商业级水平。

人工智能还可能会更好地理解图像中的内容,并能够根据这些内容自动生成相关的文本描述。例如,人工智能看到一张照片,它会自动生成提示,比如“这是一个年轻的女孩,她在看自己的手机”,这为图像识别领域提供了更多的可能。我们可能会看到AI系统能够自动生成高质量的图像,甚至可以创造出从未见过的形态和景象。这可能会给艺术家、设计师等创作者带来新的灵感和想法,并为消费者提供更为丰富的选择。

值得注意的是,AI图像生成的版权问题一直是人们争议不断的话题。版权对于保护艺术家和作者的作品来说是非常重要的。但对于由人工智能生成的图像,存在着较大的争议。

有部分学者认为,人工智能系统并不能独立地创作作品,而是依赖于人类设计者提供的数据和指令。在这种情况下,版权往往被认为应该属于人类设计者。但也有学者认为,人工智能是模仿艺术家来进行创作的,人工智能的大模型也是没有经过授权而使用了这些艺术家的作品,所以人工智能创作的图像可能属于侵权行为。不过目前还没有出台相关的法律规定。

不过笔者认为,无论是用画笔来绘制一幅图像,或是用AI来生成一幅图像,其根本都是思想的表达,并不存在差异。事实上绘画也同样存在抄袭和临摹的问题,两者只不过使用的工具不同,其最终产生的结果并无根本上的不同。AI图像生成的诞生给更多的人提供了思想传达的工具,这其实也是一种时代发展的必然。

人类对绘画的渴望始于无限的想象力与创造力。绘画的起源可以追溯到历史最悠久的时期,在那时人类使用石头、骨头、象牙和棕榈树枝等工具绘画。随着人类文明的发展,绘画工具也逐渐发展成更为复杂和精密的工具。例如,古埃及人使用金属和铜制作的画笔,古希腊人则使用鹅毛制作的画笔。

到了中世纪,人们开始使用木制的画板和画笔握把,并且使用铅笔和钢笔来替代早期使用的金属和铜画笔。在16世纪,油画颜料和颜料刷子也开始被使用。

就像现代人类刚刚使用数码技术制作绘画时一样,AI绘画诞生之初也不会被大多人理解,但时间的车轮不会停滞,这一切的发展也是必然。

四、AIGC语音的发展历程与趋势

AIGC语音合成是指利用计算机算法和技术模拟人类声音发音过程,生成自然、流畅、逼真的语音输出的技术。

语音合成技术可以应用于各种领域,如虚拟数字人、语音助手、无人驾驶、智能家居等。它可以让机器人、智能设备和虚拟助手更自然、更人性化地与人类进行交流,提高人机交互的效率和舒适度。

语音合成的发展历史可以追溯到20世纪60年代末和70年代初,当时出现了最早的语音合成技术,这些技术使用模拟电路模拟人类语音产生的生理过程,但是效果并不理想。

随着计算机技术的发展和语音学研究的深入,语音合成技术逐渐得到了改进。在20世纪80年代,出现了基于复制人类语音声音的短语单元(Diphone)的技术,这种技术能够更好地模拟人类语音的节奏和韵律。

20世纪90年代,随着数字信号处理和机器学习技术的进步,语音合成技术得到了显著的提高。出现了更加高效的语音合成技术,如基于隐马尔可夫模型(Hidden Markov Model, HMM)和人工神经网络(Artificial Neural Network, ANN)的技术。这些技术使用机器学习方法对语音信号进行分析和建模,能够更加准确地合成出自然流畅的语音。

近年来,随着深度学习技术的发展,语音合成技术取得了更大的进展。深度学习模型,如生成对抗网络和变分自编码器(Variational Autoencoder, VAE)等,能够生成更加逼真的语音,也更加接近人类语音的自然表达。

另外,近年来,语音合成技术也开始向实时性和个性化方向发展。实时语音合成可以让机器在用户交互时能够即时响应,更加自然流畅。而个性化语音合成则可以让机器为不同用户提供不同的语音风格和语音特点,使得机器更加贴近用户。

其中,WaveNet是一种具有代表性的实时语音合成技术,它基于深度学习的神经网络模型,可以在短时间内合成出非常逼真的语音。WaveNet通过使用卷积神经网络(Convolutional Neural Network, CNN)来学习声音波形中的模式,然后使用这些模式来生成新的声音波形。

此外,个性化语音合成也得到了越来越多的关注。个性化语音合成可以通过学习用户的声音特征和语音风格来合成出更加符合用户需求的语音。例如,谷歌的Tacotron 2技术可以通过学习语音样本,生成一种类似于该用户的语音风格的语音。

目前,人工智能语音合成技术已经发展到了非常成熟的阶段,其输出的语音可以和真实人类的语音几乎无异。常见的语音合成技术包括基于规则的、统计模型的和基于深度学习的合成等。

随着技术的不断创新,元宇宙以及虚拟数字人的不断发展,AIGC语音技术也将会在未来的智能生活中扮演更加重要的角色。

五、AIGC音乐的发展历程与趋势

人工智能生成音乐的技术发展可以追溯到20世纪50年代,当时研究人员就开始探索利用计算机生成音乐的方法。

1957年9月,人类第一首AI音乐作品 Illiac Suite 诞生,由芝加哥大学音乐学院和计算机科学系的研究者莱贾伦·希勒(Lejaren Hiller)和伦纳德·艾萨克森(Leonard Isaacson)创作(图1-7)。它通过Illiac I计算机被创作出来,同时, Illiac Suite 也是第一首由计算机演奏的音乐作品。

Illiac Suite 的创作受到冯·诺依曼的启发,他曾提出将音乐与计算机结合起来进行研究。莱贾伦·希勒和伦纳德·艾萨克森将这个想法付诸实践,他们创作出了一套五首曲子的系列,每首曲子都是从相关的音频信息和理论模型中抽象出来的。

图1-7 莱贾伦·希勒在自动计算机前

Illiac Suite 的出现标志着AI音乐的开端,促进了用计算机来创作、演奏、分析和合成音乐的研究,改变了我们对音乐的认识。

随着人工智能技术的发展,人工智能生成音乐也不断取得新的进展。20世纪80年代,研究人员开始利用遗传算法来生成音乐作品,并取得了一定的成功。20世纪90年代,人工神经网络算法也被用于生成音乐作品,人工智能生成音乐技术得到进一步发展。

随着深度学习技术的发展,人工智能生成音乐也取得了长足进步。目前,深度学习算法已成为人工智能生成音乐的主流算法,它可以通过学习大量音乐作品来提取作品中的模式和特征,并生成新的音乐作品。人工智能生成音乐也在不断推陈出新。目前,人工智能生成音乐已经可以生成各种不同风格的音乐作品,如流行音乐、古典音乐、爵士乐等。此外,人工智能生成音乐还可以利用人工智能算法来完成音乐分类、音乐推荐等任务。

人工智能生成音乐也可以用来完成更加复杂的音乐任务。例如,通过人工智能生成音乐技术,可以实现根据人类语音自动生成音乐作品。这种技术可以让人类在不懂音乐理论的情况下也能创作出音乐作品。

人工智能生成音乐还可以用来实现音乐合成。这种技术可以将多种不同的音乐元素进行组合,从而生成新的音乐作品。这种技术的出现可以为音乐创作带来更多的灵活性和创造力,让人类能够更加自由地创作音乐作品。

2022年10月谷歌发布了关于AudioLM的相关消息。人们只需输入几秒钟的音频即可生成听起来风格相似的音乐,并且生成的声音听起来与原始音频的音色几乎没有区别。

AudioLM可以通过对大量音频数据进行学习来模拟人类对语音的理解能力。它的工作原理类似于人工神经网络,它通过对大量音频数据进行学习,提取音频数据中的模式和特征,然后利用这些模式和特征来生成新的音频数据。

一般的语言模型通常是为文本生成而设计的,但是AudioLM的开发人员认为,使用相同的技术来生成音频可能也是有效的。

为了实现这个想法,他们首先需要将音频信号转换为文本形式,以便使用语言模型处理。音频信号被转换为文本后,就可以使用常规的语言模型技术来生成语音。

它可以加快音频生成的AI训练过程,并最终自动生成音乐为视频配音。与当前依赖基于文本的数据的系统不同,AudioLM不需要事先标记或转录。它可以模仿音频的音高、音色、强度和清晰度,以及背景噪声和说话者的呼吸节奏。

AudioLM可以更好地理解音频信号,比传统的音频生成方法更加准确,且模型训练速度更快。

在AIGC大的产业背景下,未来,AI将代替大部分人工背景音乐,短视频自媒体行业也不再有音乐版权争议,原创电影也将在AIGC音乐生成的帮助下降低更多成本,AIGC时代的来临将为音乐领域带来巨大的变革和发展机会。

六、AIGC视频的发展历程与趋势

Meta公司于2022年9月29日首次推出了Make-A-Video。Make-A-Video可以根据给定的文字提示生成短视频,也就是我们常说的“txt to Video”。在Stable Diffusion火热全网的前提下,Make-A-Video给我们展示AIGC的更多可能——短视频行业即将被颠覆。

Meta称,Make-A-Video人工智能系统还可以用给定的视频或图像制作视频。Make-A-Video由多个神经网络组成,这些神经网络的训练基于几百万个视频和23亿张图片的训练数据集。

Make-A-Video的第一个组件是神经网络,该组件的输入是文本提示,组件将文本提示转换成向量嵌入,向量嵌入是一种数据表达结构。与处理其他类型的数据相比,人工智能系统处理向量嵌入更容易一些。

在文本提示转换成向量嵌入后,向量嵌入就会被送给其他几个神经网络做进一步处理,经过几个步骤的流程后最终得到一个视频。这些神经网络最初是为生成图像而不是为生成视频而设计的,Meta在研究论文中详细说明了这一点。Meta在这些神经网络里添加所谓的时空层,用于视频的生成。

然而,在Meta发布Make-A-Video后的仅一周,谷歌也发布了自己的视频生成系统Imagen Video。相比Make-A-Video, Imagen Video生成的视频更加清晰,并且可以理解艺术风格与3D结构。它还继承了Imagen准确描绘文字的能力,在此基础上仅靠简单描述产生各种创意动画。Imagen Video同样基于最近大火的Diffusion模型,继承自5月的图像生成SOTA模型Imagen。

Make-A-Video与Imagen Video的出现标志着人工智能在视频生成领域取得的重大突破。

试想一下,未来你不需要专业的拍摄团队、剪辑团队,只要脑中有一个好的想法就可以通过AIGC生成出你想要的短视频。无论这个想法有多么天马行空,AI都能够帮你完成。在未来的长视频生成中,你甚至可以在家里拍摄一部属于自己的好莱坞电影,这是多么振奋人心的一刻。

那个时候互联网也会基于AIGC诞生无数高质量电影以及无数并不存在的虚拟偶像演员,而这些偶像可能就是由你亲手创造的,真正的元宇宙时代也将在那个时候随之到来。

七、AIGC游戏的发展历程与趋势

人工智能生成游戏的发展可以追溯到20世纪90年代初,当时人们开始探索使用计算机生成电子游戏的可能性。然而,近年来,随着深度学习和强化学习等AIGC技术的发展,AIGC生成游戏的技术才得到了极大发展的可能。

尤其是随着ChatGPT的普及和Stable Diffusion的开源,AIGC游戏生成技术已经越来越成熟,应用领域也在不断扩大。以下是AIGC生成游戏的几个发展趋势。

(一)自适应性游戏设计

自适应性游戏是指游戏可以根据玩家的行为和偏好自动调整游戏内容和难度。AIGC可以帮助游戏设计师更好地实现自适应性游戏设计,为玩家提供更好的游戏体验。

(二)环境生成

AIGC可以帮助生成游戏中的环境,包括地图、建筑和物品等,这可以帮助游戏设计师更快地创建游戏世界,并提高游戏的可玩性。

(三)任务和故事生成

利用自然语言模型等技术,AIGC可以自动生成游戏中的任务和故事情节,从而帮助游戏设计师更快地创建游戏内容,提高游戏的可玩性。

(四)个性化游戏推荐

AI可以根据玩家的游戏历史记录和偏好,为玩家推荐适合的游戏,提供个性化的游戏体验。

(五)多模态游戏设计

多模态游戏设计是指游戏中包含多种形式的媒体元素,如文本、图像、音频和视频等。AIGC可以帮助游戏设计师更好地实现多模态游戏设计,为玩家提供更丰富的游戏体验。

八、AIGC代码生成的发展历程与趋势

内容创作的模式不断变化,从专业生产内容(PGC)、用户生产内容(UGC)、AI辅助用户生产内容(AIUGC)到生成内容(AIGC)(图1-8)。

图1-8 AIGC内容生产的新模式

AIGC代码生成技术是指通过人工智能和机器学习等技术,自动或半自动地生成、优化、维护和更新计算机程序的方法和工具,通过使用自然语言处理和机器学习等,将自然语言描述转化为可执行的代码。用很直白的方式解释,就是AIGC编程。

AIGC代码生成技术本身是AIGC的重要应用领域之一,其目的是提高软件开发效率和代码质量,缩短开发周期,降低开发成本。如今,利用AI进行自动化编程已经不是一个新鲜话题。目前,市场上已经有一些功能强大的大规模语言模型,如ChatGPT等应用的火热,都表现出了AI应用在编程任务中展现的巨大潜力。

(一)AIGC代码生成发展历程

回顾AIGC代码生成发展历程,其源头可以追溯到20世纪50年代末(图1-9)。当时计算机科学家约翰·麦肯锡首次提出了“人工智能”这个术语,开创了人工智能的先河,从此利用人工智能修改和检查程序才成为计算机科学研究的一个重要分支。

图1-9 不同时期的AI进化路线

到了20世纪80—90年代,人工智能领域开始逐渐出现了一些成果,比如基于规则的专家系统、归纳学习和决策树等方法。但是在这个阶段,AIGC代码生成技术仍处于发展的初级阶段,主要是一些学术研究机构和大型IT公司在进行相关技术的研究和探索。

直到21世纪,随着计算机硬件和软件技术的不断进步,以及互联网、移动设备等技术的普及,人工智能的应用场景不断扩大,AIGC代码生成技术才逐渐开始崭露头角。

2010—2015年,越来越多的开发者开始尝试使用这种技术来生成代码。在这个阶段,一些初创公司推出了一些原型应用,但由于技术的局限性,这些应用的功能和效率都比较有限。但是到了2015—2020年,AIGC编程也正式进入了商业化应用阶段,大量的商业应用落地,一些初创公司开始开发更加成熟和稳定的AIGC代码生成工具,并且取得了一定的商业成功。

AIGC编程的发展经历了多个阶段,从最初的规则引擎、专家系统,到机器学习、深度学习等技术的应用,再到目前的智能化、自动化编程,每一个阶段都推动了AIGC编程技术的不断发展和应用。如今AIGC编程技术已经在图像识别、语音识别等领域得到了广泛应用,未来还将涉及更多的领域,如自然语言处理、机器翻译、自动驾驶等。

目前,智能编程机器人提供商aiXcoder首次开放了代码生成模型的API接口,与广大开发者共享服务、能力和数据。据了解,aiXcoder专注于通过人工智能技术来提升软件研发的效率和代码质量,长期以来面向金融、军工、科技等领域企业提供国内领先的AIGC代码生成技术以及一站式智能化软件开发解决方案,包括代码编写、代码搜索、代码检测、代码修复等。

2022年6月,aiXcoder宣布推出国内首个基于深度学习的支持方法级代码生成的智能编程模型——aiXcoder XL,该模型能同时理解人类语言和编程语言,可根据自然语言功能描述一键生成完整程序代码(图1-10)。

图1-10 aiXcoder XL生成代码的过程

(二)AIGC代码生成应用趋势

为何AI编程成了程序员的全新工具?从技术和应用角度来看,AIGC编程可以极大地提高程序开发的效率,减少开发成本和时间(图1-11),并且可以让更多的人参与到程序开发中来,成为非常有效的编程辅助工具。

图1-11 AIGC代码生成内容优势

1.自动化代码生成:通过利用人工智能和机器学习技术,将开发人员编写的高级语言代码转换为可执行的低级代码,从而加快开发速度,降低错误率。

2.自动化代码优化:通过自动化分析和调整代码结构、算法、逻辑和数据结构等方面的代码优化技术,优化代码性能和可读性。

3.自动化代码维护:通过自动化检测和修复代码中的错误、漏洞和安全问题,以及自动化重构和更新旧有的代码,从而降低维护成本和提高代码质量。

4.自动化代码测试:通过自动化测试工具和技术,如模糊测试、静态分析和动态分析等,自动化测试代码的正确性、稳定性和安全性。

但是不少人士认为,在ChatGPT热潮的趋势下,AIGC编程有很大的可能将在未来取代程序员这一职业,这样的猜想也不是毫无可能。随着人工智能产业的逐渐发展,AIGC代码生成技术也将随着技术创新与需求增加不断地自我进化,在未来展现出更为精妙的工作能力。

1.自动化程度的提高:未来AIGC编程将更加自动化,不需要人类编写代码,而是通过学习大量的数据和模型,自动生成高质量的代码,从而提高生产效率。

2.模型的优化和推广:未来AIGC编程将更注重模型的优化和推广,以提高算法的准确性和效率,并为更多应用场景提供支持。

3.基础设施的优化:AIGC编程需要大量的计算资源和数据支持,未来将继续优化基础设施,提高算法的计算速度和效率。

总之,随着人工智能技术的快速发展,AIGC编程将会越来越成熟和普及,对未来的技术和经济发展都将产生深远的影响,我们已经有足够的理由相信,AIGC编程将在未来的应用中扮演越来越重要的角色。

九、AIGC的发展趋势

图1-12是梵高创作的《星月夜》( The Starry Night ),绘制于1889年,是他的代表作,享誉世界。

图1-13是一名9岁的男孩树树用Stable Diffusion AI创作的《星空》,绘制于2022年,用时8秒。

图1-14同样是这个男孩在短时间内用人工智能创作的“艺术大作”。

我们可以清晰地看到,AI已经学习到了人类绘画的精髓和人类艺术创作的过程。

图1-12 梵高的《星月夜》

图1-13 9岁男孩用Stable Diffusion AI创作的《星空》

图1-14 9岁男孩用Stable Diffusion AI创作的其他作品

人工智能经过近70年的发展,终于迎来了第一次的颠覆性革新。

独立研究机构Stability AI成立于2020年,背后出资人是著名投资人莫斯塔克(Emad Mostaque)。这家总部位于伦敦的公司开源了Stable Diffusion后,于美国东部时间2022年10月17日正式宣布获得1.01亿美元融资,由此也正式拉开AIGC资本赛道的序幕。图1-15展示了由Stable Diffusion AI生成的作品。

图1-15 由Stable Diffusion AI生成的图像

Stable Diffusion的火爆也迅速点燃了国内对于AIGC行业的关注,许多科技领域的代表公司也正在积极地布局AIGC赛道,2022年也正式被命名为AIGC元年。

2022年12月5日,OpenAI首席执行官山姆·阿尔特曼(Sam Altman)在社交媒体上发文表示,ChatGPT在短短的6天时间内,用户突破了100万。

当人们还沉浸在Stable Diffusion的火爆之中的时候,OpenAI在2022年的最后一个月,又给人们带来了AIGC的一项颠覆性应用,让AIGC彻底出圈。

ChatGPT被称为AIGC的里程碑式应用,它是自然语言生成式模型——GPT-3.5及GPT-4的衍生产品。

在此之前,语音助手、聊天机器人其实已经有了足够优秀的表现,甚至已经被商业化很多年了,比如苹果的Siri、百度的小度、华为的小艺、微软的小冰等。但ChatGPT与人们熟悉的这些语音助手不同,它在与人们的对话中可以理解较为复杂的语句内容,同时,ChatGPT拥有一定联系上下文、理解语境的能力,可针对一个问题不断与人深入交流。这就和人与人之间的对话几乎无异了。

于是人们纷纷提出各种天马行空的问题,ChatGPT仍然可以对答如流。这也是ChatGPT可以成为现象级应用的基本原因。

当然,AIGC能带给我们的远远不止这些。

目前,由AIGC贡献的数据占有量还不足1%,根据国际市场研究机构Gartner预测,到2025年人工智能生成数据占比将达到10%。根据一份权威报告的分析,AIGC有潜力产生数万亿美元的经济价值。

正如Web 2.0的主要内容查询方式搜索引擎一样,如何掌握搜索是你在计算机时代生存的必备知识,搜商(Search Quotient)往往代表了你在互联网时代知识的获取速度,而AIGC必然也将诞生一个新的名词——AI Quotient(爱商)。你的爱商越高,创作的内容就越高效、越精准。

AI非常依赖提示词(prompt),随着AI工具化进程的不断发展,tag也必然成为一门专业的学科,我们要掌握如何用精简、精准的语言向AI描述我们想要的东西,同时也要使用tag去约束AI出现一些我们不想要的东西。其中,你必须掌握与AI精准对话的手段和与AI对话的相关知识,这些知识范围极为全面且广泛,甚至有很多专业领域的术语,这都需要我们在日常生活中不断地学习以及总结经验。

AI将在未来的五年中逐步渗透到我们日常生活的各个领域,艺术创作、设计、摄影、文章撰写、短视频拍摄、直播带货、虚拟人、元宇宙、游戏开发、电商等人类的核心产业必将被AI所迭代或大幅度提高人工效率,所以对于任何一家想要抓住AIGC机遇的公司或者想要从业的个人来说,现在的时代已经提供了一个最好的机会和一个最佳的舞台。 ctDACJZoKq83prkpGMN3cM2k1Ce1Q/12v9jxeo27KysfmjaNnqL/OTt8GlPjtRuR

点击中间区域
呼出菜单
上一章
目录
下一章
×