人工智能(Artificial Intelligence,AI)指的是使计算机系统具备模拟人类智能过程的能力,以执行特定的任务,如语言理解、学习、推理和问题解决等。AI领域的终极目标是创建出能够自主完成复杂任务的系统和应用,从而模仿或超越人类的智能。
AI的历史可以追溯到20世纪40~50年代。1943年,沃伦·麦卡洛克和沃尔特·皮茨首次提出了人工神经网络的概念。1950年,艾伦·图灵提出了著名的“图灵测试”,旨在测试机器是否能够展现出与人类不可区分的智能行为。1956年,计算机科学家约翰·麦卡锡(John McCarthy)等若干科学家共同举办了第一次达特茅斯会议,正式确立了“人工智能”这个术语,并启动了现代AI研究的旅程,如图1-3所示。
图1-3 达特茅斯会议与人工智能创始人
尽管AI历经几次热潮和寒冬,但随着大数据、计算能力和算法的不断进步,AI如今已成为科技发展的前沿领域,引领着无数的创新和变革,且在各行各业都开始显示出其强大的潜力和影响力。
人工智能生成内容又称为AIGC,是指利用人工智能技术自动化生成文字、音乐、图像或视频等内容的过程,如图1-4所示。在AIGC的背后是一系列复杂的算法和模型,如深度学习和自然语言处理技术。这些算法可以训练计算机系统,使其能够理解和模拟人类的创造过程,从而生成富有创意和价值的内容。
图1-4 Midjourney软件生成的图像
提示词:copyright,aigc
常见的AIGC应用是自动文章或报告生成。通过分析大量的数据和信息,AI系统可以自动撰写新闻报道、市场分析报告或其他类型的文档,极大地提高了内容生成的效率和速度。此外,AIGC还广泛应用于音乐、艺术和娱乐产业,如自动作曲和视频生成。
然而,AIGC也面临着诸多挑战。内容的原创性和质量是评价AIGC成功与否的关键因素。为确保生成内容的质量和相关性,AI系统必须进行大量的训练和优化,以更好地理解和满足用户的需求和期望。
AIGC正逐步改变我们的内容生产和消费方式,它让内容生成变得更加智能化、高效和个性化,展现出巨大的潜力和价值。
人工智能图像生成(Artificial Intelligence Image Generation,AIIG)是利用人工智能(AI)技术创建或修改视觉图像的过程。借助深度学习和生成对抗网络(Generative Adversarial Network,GAN)等尖端技术,AIIG可以生成高分辨率和逼真的图像,包括人脸、风景和艺术作品等。在AIIG中,模型通常经过大量图像数据的训练,以学习和模拟图像的各种属性和特征。通过这种学习,AI可以理解和复制不同的艺术风格,生成新的、原创的图像,或者对现有图像进行修改和增强。AIIG已被广泛应用于电影制作、视频游戏、虚拟现实和许多其他领域,为内容创建者提供了强大的工具,实现了以前难以想象的创意和效果。
神经网络是模拟人脑神经细胞工作机制的一种数学模型。它试图使用数学语言来诠释人脑中数十亿神经细胞之间复杂的互动关系,使计算机得以“学习”和“思考”。
(1)神经元与权重。
神经网络的基本单元是神经元。若将神经元比作一个接收和处理信息的小工厂,各神经元通过“突触”相连,信息通过这些连接传递。在神经网络中,突触的作用由权重来模拟。权重决定了信息传递的强弱,如同调节信息流量的阀门。
(2)激活函数。
每个神经元接收到的信息会累加并通过激活函数处理。激活函数决定了神经元是否被“激活”,从而输出信息到下一层。就像工厂的检查员,确保只有合格的产品才能流向下一个流程。
(3)神经网络的层级结构。
一个标准的神经网络模型包含输入层、隐藏层和输出层。信息在各层之间流动,像是在一个精密的生产线上经过各环节,不断被加工和优化,如图1-5所示。
图1-5 神经网络输入层、隐藏层、输出层示意图
(4)关于神经网络的类比理解。
再次想象,我们面前有一个巨型果园,如图1-6所示,它就像是一个神经网络。
图1-6 想象中的果园(由DALL·E3生成)
我们进入果园的最终目标:从果园中挑选出最好的水果。
挑选水果需要经历三个步骤:获取苹果信息、决策判断、完成挑选。为方便理解,接下来通过示意图进行类比对照,如图1-7所示。
图1-7 选出心仪苹果三步走
第一步,我们来到市集入口,这里水果摊档林立,摊贩热情招呼,各式鲜果竞相展现风采。这一步您要做的,就是通过眼睛、鼻子,还有手快速收集信息:观察它们的色泽,闻它们的香气,触摸它们的皮肤(果皮)。如同神经网络的输入层接收外界各种信号,准备交给下一步做运算处理。
第二步,在心中用刚才获得的初步信息进行第一轮粗筛:那些明显不新鲜的、大小不符合您期望的,或者外观有损的水果,毫不犹豫地首先排除掉。这一步如同神经网络中的第一个隐藏层。此时,您的大脑包含着无数权重(经验)的神经元网络,通过激活函数(直觉)的作用,处理并筛除掉那些不符合要求的选项。
第三步,进入选择的深层次,开始细致地评估每个水果的内在品质。您尝一小口以判断甜度,您挑选那些位于枝头阳光照射充足部分的水果,因为它们往往更甜、更成熟。这个阶段就像是神经网络中的第二个隐藏层。在这一层,您的决策过程变得更加复杂,选择标准更加精细,筛选出来的将是那些最符合您口味和质量标准的佼佼者。
在这个过程中,每一个隐藏层都承担着不同的任务,第一层负责初步筛选,第二层则进行更为深入的品质判断。这些层级联合起来,形成了一个复杂的决策和思考链条,正如神经网络通过多层的处理来提取信息、做出判断,最终得到我们想要的结果。
最终,当您离开市集时,篮子中装满了您精心挑选的水果。每一个水果都是您经过多重考量、多次决策的结晶。这个最终的篮子,就像是神经网络的输出层,它展现了您决策过程的成果,也反映了您筛选能力的精准度。
每一次挑选,您的决策模型都在微妙地进化,就像神经网络通过不断训练自己的权重和激活函数,以做出更为准确的预测和选择。在这复杂而微妙的过程中,不仅是您对市集的水果变得越发了解,神经网络也在每一次的训练中变得更加精确,两者都在不断学习,不断进步。
深度学习是神经网络的一个子领域,主要关注的是构建和训练深度神经网络。深度神经网络包括多个隐藏层,可以处理更复杂、更高维度的数据,适合于图像识别、自然语言处理和游戏策略等多种任务,如图1-8所示。
图1-8 人工智能、机器学习、深度学习三者的“知识关系”
(1)架构。
深度学习的网络架构通常比较复杂,包含多个隐藏层和大量的神经元。这种架构可以从原始数据中抽取出更高层次的特征。
(2)训练。
深度学习网络的训练通常依赖大量的标记数据和强大的计算能力。通过反向传播和梯度下降等算法,不断调整网络权重,优化网络性能。
(3)关于深度学习的类比理解。
尤瓦尔·赫拉利在《人类简史》中的核心观点为“人类之所以能从远古时代到今天,持续创造出辉煌璀璨的文明,核心动力在于‘以想象力为驱动’。”图1-9所示的是AI将它所理解的“深度学习”以具象化图形方式展示。
图1-9 AI所理解(想象)的深度学习
接下来,跳出通俗的比喻方式,我们使用计算机科学的逻辑来理解机器学习和深度学习的概念。
在机器学习中,算法通过分析和学习数据集来构建模型,这使得计算机能够做出预测或决策。这种方法的关键在于,计算机不需要由程序员提前编写具体的决策规则或指令。相反,机器学习算法使得计算机能够基于数据自动发现如何完成特定任务,例如识别图像中的对象或预测未来趋势。这样,计算机可以自主学习并适应新数据,而不是依赖于硬编码的规则。
深度学习是机器学习的一个高级分支,它依赖于被称为人工神经网络的复杂结构。这些神经网络包含多个层次,每个层次都由众多“神经元”组成,它们相互连接并处理数据。深度学习的核心在于能够自动从数据中提取和学习复杂的特征和模式。
在深度学习中,不需要程序员预先定义如何处理或解释数据。相反,网络通过大量的数据训练自己,自动学习如何识别和解释复杂的模式和特征。这种自我学习的过程允许计算机执行高度复杂的任务,如图像识别、语音转文字和自然语言理解。
例如,在图像识别中,深度学习模型可以自行学习如何识别不同的物体,而不需要人为地告诉它每个物体的具体特征。模型通过分析成千上万的图像,逐渐理解和识别各种形状、颜色和纹理。这种学习方式使得深度学习特别适合处理那些需要高层次抽象和推理能力的复杂任务。
以上分别使用了“果园比喻”和计算机科学专业术语两种方式介绍机器学习和深度学习的概念,以帮助读者更加深刻地理解AIGC。
生成对抗网络(Generative Adversarial Network,GAN)是一种强大的机器学习模型,由计算机科学家伊恩·古德费洛(Ian Goodfellow)于2014年提出。GAN包括两个部分,分别为生成器(Generator)和判别器(Discriminator)。
· 生成器:其任务是创建新的数据实例。在训练过程中,生成器尝试创建看起来与真实数据相似的数据。
· 判别器:其任务是区分生成的数据和真实的数据。它尝试识别出生成器生成的数据。
生成器和判别器在训练过程中进行对抗。生成器尝试创建越来越真实的数据,判别器则尝试越来越精确地识别出生成的数据。这个过程通过不断迭代,直到生成器生成的数据无法被判别器区分。
读者可以想象一下,自己正在观看一场艺术大师(生成器)和艺术鉴赏家(判别器)的对决。在这场对决中,艺术大师(生成器)的任务是创作出一幅幅画作,而艺术鉴赏家(判别器)的任务是判断这些画作是否为真正的大师之作。
(1)艺术的对决。
艺术大师(生成器)试图用他的技巧和创意去迷惑艺术鉴赏家。每创作一幅画作,艺术鉴赏家(判别器)都会进行评价,指出画作中不真实的地方。
(2)不断进步。
通过艺术鉴赏家(判别器)的反馈,艺术大师(生成器)不断地完善自己的技巧,使得自己的画作越来越真实、越来越富有艺术感。与此同时,艺术鉴赏家(判别器)也在不断地学习和提升,变得越来越敏锐。
(3)达到高峰。
经过一系列的对决后,艺术大师(生成器)的画技已经趋近于完美,即使是经验丰富的艺术鉴赏家也无法轻易地分辨出画作的真伪。在这个阶段,我们可以说艺术大师(生成器)成功地掌握了绘画的艺术。
(4)在AI绘画中的意义。
在AI绘画领域,生成对抗网络就像是这场艺术大师(生成器)和艺术鉴赏家(判别器)的对决。生成器不断尝试创作出真实和引人入胜的艺术作品,判别器则不断尝试分辨出这些作品的真伪。通过不断训练和对抗,生成对抗网络能够生成越来越真实、越来越富有艺术感的作品。
在人工智能绘画领域,生成对抗网络的应用越来越广泛。它不仅可以创建出高质量的艺术作品,还可以为艺术家提供灵感和辅助,推动艺术创作进入一个新的维度。通过生成对抗网络,人工智能和艺术的融合将会越来越紧密,为我们的生活和文化创造出无限的可能性和价值。
Prompt可以理解为触发AI模型响应的提示词或短语。它们在AI的训练和应用过程中起到了极为重要的作用。Prompt激发了模型的思考,唤起其学到的信息,并引导它按照某种预定的方式进行回应。
以大语言模型ChatGPT为例,其通过在巨大的文本语料库上进行预训练,学习到了语言的基础结构、概念间的关联,以及词语的语义信息。在生成文本时,Prompt就像是指路的明灯,指引着模型沿着某个特定的思考方向前进,从而生成与Prompt相关的、逻辑连贯的文本内容。
在人工智能绘画领域,Prompt的运用也显得极为精妙。当用户向AI绘画工具提出“请为我画一片星空”的要求时,它可能展现出一幅宽泛的、包含星星的天空图景。然而,当Prompt变得更为精确时,例如“为我绘画一片由蓝紫色调构成的、闪烁着各种大小星星的星空”,收获的将是一幅更加贴合心意、充满艺术感的作品。其中,Prompt就像是一位沟通我们与机器的“翻译官”,准确传达了我们的期待和渴望。
接下来看一组案例。
星空一如图1-10所示。
图1-10 星空一
提示词:totally dark night sky by the sea, dslr, extremly long shot --ar 16:9,
星空二如图1-11所示。
图1-11 星空二
提示词:night sky by the sea Matt Molloy, long exposure, polar aurora, side shot of hiking couple, sitting, dof, low angle shot,dslr, extremly long shot --ar 16:9
星空二与星空一相比,画面内容更加丰富,因为其使用了更多、更详尽的提示词。驱动人工智能进行创作。这些提示词在整个过程中并非只是一个启动码,更是一种带领我们跨越数字与现实、连接艺术与科技桥梁的核心元素。