深度学习领域主要分为两个“门派”:判别式与生成式(图1-6)。
图1-6 深度学习主要分为判别式与生成式两个“门派”
判别式如同人类的决策思路,从简单地判断“这只羊是山羊还是绵羊”到“对战柯洁时每一步应该怎么落子”,都属于判别式。生成式则更加开放,比如说一段话、唱一首歌、画一幅画等,这些都属于生成式要做的事情。可以看到,判别式一般代表着人类更为客观与理性的决策,而生成式则代表着人类更为主观与感性的创造,两者相辅相成,共同促进深度学习技术的发展。AlphaGo从诞生到2020年,人工智能狂潮经历了6年的发展逐渐趋于理性,其中有一部分因素是判别式人工智能成果占据了人工智能应用市场的较大比例,而生成式人工智能(AIGC)的效果并未达到人类期望的水平。
在人类眼中,人工智能仿佛就是一个完全理性、客观的裁判,只会给出标准的判断,而缺少人们对“智能”中感性部分的期望。部分专家认为,此时的人工智能不过是更准确一些的判断工具,并非真正的人工智能。
起初,生成式人工智能只是为了更好地理解数据从而还原数据的本身。而后,有人提出了一个想法:“既然我们已经知道了这些数据是怎么生成出来的,那我们可不可以根据这样的生成思路去创造未曾出现过的数据呢?”比如我们知道如何画一只小熊猫,并且知道怎么画出粉红色的毛发,那么我们是不是就可以用AIGC画出一只粉红色的小熊猫呢(图1-7)?类似这样的想法有很多,而这也是AIGC带给我们实现具有创造力的人工智能的一种可能性思路。我们常说“读书破万卷,下笔如有神”,这既是生成式人工智能的内在机理,更是人类创造力的来源。
图1-7 由DALL-E 2生成的一只粉红色的小熊猫
这种思路是极具创造性的,也是极具挑战性的。早期的AIGC主要是围绕图像的生成做出了许多理论性的探索,其中包括传统的马尔科夫链生成模型、变分自编码器以及生成对抗网络(generative adversarial netuorks,GAN)。虽然其生成质量在不断提升,但效果仍达不到原始数据本身的质量,一些研究人员将其归咎于模型参数量太小。模型参数量太小以及神经网络模型搭建得不够大,就像人类因神经元的受损与缺失而引发智力衰退。同样,针对语言生成式的理论也遇到了这样的困境。因此,一些有能力采购与部署大量计算芯片的研究团队开始着手大规模模型的搭建与研究,其中包括微软、谷歌、脸书(FaceBook)、华为、阿里巴巴、百度等一众大型企业。
随着研究的进行,大量的实验结果表明扩大模型参数的思路确实令神经网络性能得到大幅提升,其中以2018年谷歌发布的BERT模型 [13] 以及OpenAI的GPT系列 [14] [15] [16] 最为突出。这种现象也让人意识到深度学习从理论到实践的转化离不开算力突破,而想要达到人类认知标准的创造力甚至突破人类极限的创造力,仅凭AlphaGo时期所拥有的计算能力是无法实现的。
所谓“工欲善其事,必先利其器”,深度学习所依赖的“利器”便是图形处理单位(graphics processing unit,GPU)芯片,即图形处理器。电脑通常需要使用这一芯片展现画面,其被广泛运用于个人电脑、工作站、游戏机等系统中执行与图像或图形处理相关的计算。由于GPU的计算方式十分适用于深度学习,目前几乎所有主流的深度学习算法模型都是在能够适配其计算量的GPU上运行的。因此,GPU的性能在某种程度上决定了基于深度学习的人工智能的计算能力。
自1999年英伟达(NVIDIA)推出第一款支持变换顶点和像素着色器的GPU——GeForce 256以来,大规模显卡并行计算成为可能。随后的20多年里,深度学习领域取得了一系列重要突破,服务于深度学习的显卡技术也紧随其后。英伟达等公司不断推出性能更强大的GPU和计算平台,如CUDA编程模型、Tesla K40以及Ampere架构的显卡等。与此同时,超威半导体公司(AMD)也推出了用于加快深度学习训练速度的ROCm架构。这些硬件上的推进都为深度学习任务提供了强大的计算能力支持。
同时,深度学习算法也在不断发展,包括深度信念网络、卷积神经网络和生成对抗网络等。这些算法在GPU的加速下,显著加快了训练速度、提高了性能,在计算机视觉和自然语言处理(natural language processing,NLP)等领域取得了突破性成果。预训练模型如BERT模型和GPT系列在NLP任务上表现突出,但同时需要极大的计算资源,GPU在这一过程中发挥了关键作用。
谷歌等公司也推出了专为深度学习任务设计的硬件,如深度学习处理器TPU。随着深度学习领域的发展,神经网络的参数计算对GPU性能的需求越来越高。为满足这一需求,英伟达推出了Grace CPU,此CPU为AI和高性能计算领域提供了卓越的性能支持。
GPU与算法的发展就如同一场赛跑:近年来谷歌与微软等人工智能公司朝着参数量更大、结构更复杂的方向去设计神经网络,而训练这些神经网络通常都需要占用成百上千张高端的GPU才能实现。如此高昂的计算代价倒逼GPU制造商不断地更新计算架构和计算芯片,降低模型的实现成本。而模型实现成本的降低,又让研究者们可以大胆地推进自己的研究工作。这既是赛跑,也是相互助力。
深度学习是一种极度依赖数据的人工智能技术,它通过学习和提炼数据中的知识,有针对性地解决人们给人工智能设定的任务。为了满足越来越复杂与庞大的深度学习算法以及神经网络结构,如何获取、筛选、整理与加工数据成为实现人工智能算法性能突破的“最后一块拼图”。
随着互联网的迅速发展,社交媒体已经渗透到人们的日常生活中。人们通过各种社交媒体平台分享自己的生活、工作和兴趣爱好,形成了海量的数据。社交媒体上的数据类型繁多,既包括用户生成的内容(如动态、评论、私信等),也包括平台生成的数据(如用户画像、行为轨迹、推荐系统等),其涵盖了文字、图片、音频、视频等形式,涉及人类行为和社会现象。而这些与日俱增的数据无疑是让人工智能认识这个世界的最直接与最宝贵的资源。为了“编辑”专供人工智能学习的大数据“教材”,谷歌、微软和百度等掌握着海量互联网数据的搜索引擎公司利用各自平台的优势,构建了包括检索数据、对话语料库、图像标签与描述信息等在内的高质量大规模数据集。脸书、字节跳动等代表新型社交媒体的公司则整理了用户生成内容、互动行为、用户喜好和关系网络等信息,形成了涵盖文本、图片、音频、视频等多元化内容的数据宝库。此外,跨国企业和政府组织也在共享数据资源,推动多领域合作,为人工智能提供了更丰富的学习素材。
在这个过程中,这些组织和企业不断改进数据处理技术,如数据清洗、特征提取和数据标注等,确保数据质量满足人工智能学习的需求。同时,他们还通过强化学习和深度学习技术对数据进行预处理,以便更高效地应用于人工智能的训练和优化。这些大数据“教材”为人工智能提供了前所未有的学习资源,使它们在自然语言处理、计算机视觉、推荐系统等领域取得了突破性进展。
算法、算力和数据,作为人工智能的“三驾马车”正以一种相互促进的方式,载着人工智能奔向一个全新的格局(图1-8)。
图1-8 人工智能的“三驾马车”(算法、算力、数据)