毫无疑问,这是一个全新的时代。今天,人们把人工智能、大模型称作“第四次工业革命”,认为大模型将会非常长远、深刻地改变一切。那么,大模型有哪些独特之处,配得上如此高的评价,值得如此期待呢?
大模型,本质上是在做什么?其实它就是在根据用户的引导,推测应该输出什么内容。为什么叫大模型?回想一下联结主义的初衷,即希望打造一个类似人类大脑的产物,而大模型则依然瞄向这个目标发展,且更进一步。
人类的大脑内部有许多神经元。在日常不断学习的过程中,神经元之间的连接会发生变化,有的变粗,有的变细,最后就会形成一个神经网络。在这种情况下,再通过大量的经验改造,大脑就可以处理很多问题。
与此类似,大模型有大量参数,这就相当于人类的神经元及其连接也需要许多数据来训练、学习,在不断训练的过程中,参数会不断跟随调整,最后调整好的模型就类似于已经发育良好的大脑,从而具有很强的语言推测等能力。
在训练过程中,大模型也展现了“大”的特点:算力消耗大、数据量大、模型参数大等。
算力,即运算的能力。众所周知,人类的思考计算依靠大脑。大模型的思考计算则依赖以GPU为主的各类处理芯片。思考都需要能量。就像大脑只占人类重量的2%,却要消耗20%的能量。从OpenAI的技术报告看,当时训练一次GPT-3大模型需要10的23次幂的计算。以一秒钟计算60万亿次的英伟达H800显卡为例,也需要1 000块显卡计算50天,对应的成本达到500万~1 000万美元。如果采用中国传统打算盘的方式来计算,则需要全世界80亿人计算100万年,才能算一遍、训练一次。因此,从这个角度来讲,大模型的出现绝对称得上是个奇迹,仅靠个体是绝对解决不了如此规模的计算问题的。
大模型需要的数据,相当于人类需要学习的知识。大模型对数据的需求量非常大,例如GPT-3的预训练数据量达到了45TB(太字节),
这相当于10万人一辈子不睡觉才能达到的阅读量。数据类型通常可以分为两类——标注数据和无标注数据,也就是经过人工打标签后的数据和未经打标签的原始数据。
接下来重点介绍模型参数。先引入一个数字例子。如图1-6所示,假设平面上有三个点,我们希望可以根据这三个点的信息实现给定任意横坐标 X 就能给出对应的纵坐标 Y 。显然,最直接的思路是找到一个函数。
图1-6 模型参数示意图
如果规定只能用两个参数来构建函数,那么可以用 Y = aX + b 来描述, a 代表斜率, b 代表截距,得到的则是一条直线,但这条直线无法准确表示三个点的关系,也就无法实现我们所希望的给定横坐标 X 后就能准确预测对应的 Y 值。
那么,再增加一个参数,我们可以用三个参数构建一个一元二次函数,这时就能准确地模拟出一条曲线。这条曲线不仅能覆盖三个点的关系,而且能实现更加精准的预测。
以此类推,如果用更多参数来构建函数,那么就可以更精准地描绘一些更复杂的点的分布。这就说明,给的参数多了,预测能力就可以变强。当然,这个例子并不严谨,没有考虑“过拟合”的情况,只是示意参数和模型能力之间关系的一个简化表达。对于大模型而言,大参数意味着模型有更多的参数来适应数据中的细微差别和特征,能够学习更加复杂的数据模式和函数关系,这就增强了模型的表达能力,使其能捕捉数据中更丰富的信息。
大模型参数增加的过程,也很有现实对照意义。就像一些生命体一样,不太聪明的水豚,其大脑只有3亿个神经元,猴子的大脑有17亿个神经元,猩猩的大脑有90多亿个神经元,而作为智慧生物顶端的人类,则有几百亿个神经元。到了百亿的量级后,人类的智慧一下子就得到了大幅提升,出现了智慧的飞跃。
对于模型,也有类似的观察,如图1-7所示的几个例子中,纵坐标表示模型的效果,横坐标表示模型的参数规模,可以看出,在模型参数规模比较小的时候,随着模型参数规模开始变大,模型效果的提升并不明显,但在大模型的参数规模达到十亿、百亿、千亿级别时,智能水平会从量变转化为质变,各类任务的效果出现了明显的拐点,这也被科学家称为“智能涌现”。
图1-7 不同参数规模的大模型能力涌现
注:LaMDA是谷歌推出的一个面向对话的神经网络架构,GPT-3是OpenAI研发的人工智能语言模型,Gopher和Chinchilla都是DeepMind推出的大模型,PaLM是谷歌发布的大模型。
资料来源:Jason Wei, Yi Tay, Rishi Bommasani, et al.,“Emergent Abilities of Large Language Models”, 2022。
这里说的效果通常是指任务的准确度、问答匹配度、真实性、上下文关联、复杂任务完成率等指标,而这些效果指标的提升依赖大模型的语言理解能力、生成能力、逻辑推理能力等。
但是,参数并不是越多越好。参数过多可能导致“过拟合”,也就是在给定的数据上表现很好,在新数据上表现很差,可以通俗理解为只会死记硬背,不能举一反三。除了参数规模,模型的结构或者说底层的函数形式也很重要。比如在前文图1-6所示的例子中,如果只有一个一元多次函数,无论用多大规模的参数,所能描述的也只是一个平面上 x 和 y 的关系,无法刻画三维空间的关系。大模型的发展,正是归功于Transformer这样的模型架构。
简单理解就是,与以往的人工智能相比,大模型的特点是量变引起了质变。因此,也可以看到各家公司都在模型参数上展开“军备竞赛”,不断挑战更大规模。
能否举一反三,是老师们经常用来评价学生是否真正掌握了知识、是否有学习智慧的一个重要指标。在人工智能领域,这也是评价模型聪明与否的重要参考。所谓举一反三,实际上就是泛化能力。大模型所具备的泛化能力,是传统的人工智能技术所不具备的,这是一个非常重要的变化。
大模型是如何获得泛化能力的?从技术来看,大量的训练数据、大量的训练,可以让模型学会有效地提取有用的信息和特征。这些特征不仅包含数据的表象信息,还包含其背后的深层次规律和结构。因此,大模型就可以将预训练中学到的经验规律、知识策略等,迁移应用到崭新、未知的场景中,提升模型的普适性。
众所周知,人工智能的研发成本很高,良性的发展是进入商业场景,由商业客户平摊成本。但如果人工智能只能应用于特定领域或行业,那么这些客户要平摊的成本就会很大,使用人工智能的意愿就会降低。而且,如果只有几个领域使用,人工智能企业获得的反馈也会更少,不利于后续研发。
传统人工智能模型通常只具备某个领域的能力,例如只聚焦视觉、图像识别、语音、文本等,没有通用性。每一个产品去做应用开发的时候,都需要从头做一遍,包括收集数据、训练模型、验证效果、开发应用,交付成本高,而且不容易规模化。因此,传统人工智能公司经营研发压力大,客户应用也不方便。
具备泛化能力后就不一样了。如果人工智能落地一个应用是一场千米跑,在传统人工智能技术下,其基础能力或许只能覆盖100米,剩下的900米都要定制开发。现在有了大模型,900米都是公用的,只有最后100米是要定制的。通用性提高意味着下游使用场景更丰富、客户更多,要平摊的成本也会降低,客户使用人工智能的意愿会加强。同时,更多场景也意味着人工智能研发企业可以获得更多反馈,提升研发效率。这就确保了人工智能可以从实验室走进商业场景,并且积累更多的数据进行不断迭代,进入良性循环。
此外,大模型能够适应新状况,并能够举一反三,才会更贴近人类的实际生活与思维模式。因为再多的规则也是无法对现实做充分预判的,再多的数据也是无法对现实做充分模拟的。社会不断发展,人类不断探索,就必然会有新场景、新领域出现。如果人工智能不能具备持续学习的能力,那么不仅研发成本会增加,实际应用的吸引力也会大幅减弱。
因此,泛化能力让大模型对客户和研发企业的商业价值都大幅提升了。
模型精度在人工智能应用中扮演着至关重要的角色,它直接影响人工智能系统的性能、可靠性、用户满意度以及在实际应用中的广泛性和深度。高精度才能更准确地反映数据的真实情况,提供更可靠的预测或决策支持。
大模型显著提升了人工智能精度。第一,在算法层面,Transformer可以使模型捕捉长距离依赖关系,提升数据分析的准确性,自注意力机制也提升了信息整合能力。第二,大模型的数据质量和数量都有大幅提升,传统人工智能的训练数据都在万或者百万的量级,而大模型采用的数据量动辄千亿级别。而且,数据处理技术(包括清洗和特征提取)也得到了提升。第三,在预训练之后还采用了微调等技术,进一步提升了模型精度。第四,芯片的快速发展带来算力提升,也使提升数据量、提升精度变得更为可行。
算法、算力、数据三要素共同发力,使人工智能的精度不断提升。
人工智能能力的提升,在棋类竞赛领域体现得很明显。1997年,IBM的超级计算机深蓝(Deep Blue)以3.5∶2.5的微弱优势战胜了当时的世界国际象棋冠军加里·卡斯帕罗夫。而从2016年起,谷歌旗下的AlphaGo(阿尔法围棋)就先后以4∶1大胜李世石、3∶0完胜柯洁的战绩展现了实力。但毕竟下棋还是娱乐项目,只有在生产力领域超越人类,才更具商业价值。
首先,人类的知识是不连续的。无论华佗有多厉害,总结了多少经验,他都没有办法把这些经验原封不动地传给后人。传承的一个方法是写书,但写书必然会有信息损失,后人再去阅读时因为理解力不足等又会有折损。因此,很长一段时期内,人类得到的知识和经验,没有办法非常有效地传承下去。但大模型改变了这个状况。大模型具备千亿参数,可装载数据量大,而且所有人都可以基于此再训练自己行业的小模型,实现有效传承。
其次,人类交互的带宽比较小。我们面对面聊天,一分钟说一两百字,聊一个小时最多才说一万多字。折算成机器数据,也就是几十KB(千字节),可见,人和人之间聊天的带宽是很低的,而当下机器和机器之间的网络带宽则扩大了万亿倍,例如,英伟达Blackwell(人工智能芯片与超级计算平台)GPU配备G7内存,可提供高达1.8TB/s的显存带宽。
从这个角度来讲,大模型既能传承知识,又能高效交流,在内容创作、语言理解等方面也已经超越了普通人。
2023年高考结束后,全网测试各家大模型在语文作文方面的创作能力。根据《第一财经》的测试以及邀请多名高考阅卷老师进行打分,结果表明,大模型的平均分数为42分,相当于满分60分70%的水平。
整体来看,在文本生成、语义理解、信息提取、语言翻译等领域,大模型的表现都超越了大部分普通人。而这些能力对应的使用场景则包括营销方案设计、翻译、智能客服、高效办公、智能财务分析、辅助学习、企业培训等,覆盖了多个商业刚需。
例如,在研究领域,面对信息浩瀚、数量繁多的研究报告,以前需要人工快速浏览,任务量巨大;但有了大模型之后,就可以先由大模型发挥信息提取的能力,快速整理出核心内容,如果用户认为有必要,则再进行相应的详细阅读,这大幅提高了处理文本的效率。
再如,在企业内部培训领域,以往的模式是定期组织相应的培训班进行集中学习,但是员工有可能还是会忘记内容,影响实际操作。有了大模型,员工可以随时随地学习相关内容,而且大模型具备“千人千面”的效果,可以根据员工回答的内容有针对性地进行提升。即使在实际操作中员工遗忘了一些知识,也可以借助大模型进行高效搜索。这对于有较多外部一线实操员工的企业(尤其是蓝领较多、地域较广、培训不方便的企业)非常有用。
大模型并没有局限于语言,而是基于语言的进步经验,正实现从语言到多模态(文本、图像、音频、视频等)的提升,这也是人工智能领域的一个重要发展趋势。在海外,2022年下半年,Midjourney(人工智能绘画工具)、Stability AI(人工智能企业)相继发布了文生图(Text-to-Image)应用,可以根据用户输入的文字生成相应的图片;2024年2月,OpenAI发布了文生视频(Text-to-Video)多模态大模型Sora,可以根据用户输入的文本生成相应的视频,推动多模态向前一跃。在多模态的技术发展潮中,国内公司也没有缺席。
在文生图方面,传统的文生图质量仍较低,经常会有“一眼假”、不符合逻辑的状况,这也被称为大模型的幻觉。如果不能消除幻觉,文生图就只能停留在自娱自乐的状态。因此,2024年,百度自研了iRAG(检索增强生图)技术,把百度搜索的亿级图片资源和大模型基础能力相结合,大幅提升了文生图的真实性,也意味着文生图更具有商业性。
2024年4月,生数科技公司发布了国内首个长时长、高一致性、高动态性的视频大模型Vidu。该大模型可以支持多种类型的生成方式,包括文生视频、图生视频、参考生视频等。生数科技作为清华大学人工智能研究院孵化的创业公司,公司内部的人才密度非常高,团队在贝叶斯机器学习和多模态大模型领域积累了多个原创性成果,从而可以实现文生视频的精髓:对现实世界物理规律进行准确模拟,并提升视频风格和主体的一致性。2025年初发布的Vidu 2.0版本的生成速度大幅提升,用户仅需花费5分钟,即可生成长达1分钟的视频素材。
多模态大模型正在日新月异地发展。那么,多模态有什么用呢?以人类获取信息做类比,人类有五官,获取信息的途径包括视觉、听觉、触觉、嗅觉、味觉等。大模型的多模态则相当于“多感官”,通常情况下,单一感官弱于多感官。一方面,不同模态的数据可以相互补充,避免了单一模态数据的局限性,从而使模型获取信息的能力更加全面、精准。同时,多模态可以提供更丰富的上下文信息,提升大模型的学习能力和对复杂问题的理解、处理能力。另外,多模态能力也使大模型和人类的交互更加便捷,更符合人类的习惯,也更具有普及性。毕竟,和语音、视频输入的人群相比,文本输入的人群基数要大得多。
由此,多模态大模型更接近人类的感知和认知方式,也打开了更多应用场景。
例如,在营销领域,文生图可以生成高质量海报,传统汽车行业拍摄场景宣传海报时动辄需要十几万元,而用了iRAG技术后,创作成本接近于零。另外,数字人、短视频都是非常好的“种草”方式,但无论是数字人还是短视频的拍摄、制作,门槛都不低。借助多模态能力,可以一句话生成3D(三维)数字人,也可以继续生成短视频,从而为营销助力。这部分内容会在第四章详细阐述。
在餐饮领域,例如海底捞,基于百度智能云一见视觉大模型平台,可以进行无死角的视频人工智能分析,实时对海底捞全国1 300多家门店的员工服务规范进行打分,从而形成对所有门店经理的量化排名与考核,提升管理效率,改善消费者体验。
在医疗诊断领域,综合医学影像、病历文本等多模态数据,可以更准确地诊断疾病,降低误诊率。
在客服领域,文字沟通有时候会显得十分冰冷,通过数字人和语音沟通,就会增加用户的亲切感。而且,多模态能力也允许用户以上传图片、视频的方式来表述问题,通过准确抓取相关信息,在降低用户表达门槛的同时,可以快速解决问题。
在交通领域,采用多模态大模型能力后,自动驾驶可以不再单纯依靠前置规则,而可以通过实时的图像采集进行判断、执行,交通管理也可以因为对图像、视频等信息处理能力的提升而得到改善。
在具身智能机器人领域,多模态能力可以让机器人更像人,通过视觉、触觉和声音等多模态传感器获取信息并协作处理,共同完成复杂的生产任务。诸如此类的应用场景还有很多,在第五章会更详细地阐述。
大模型多模态能力将在2025年得到进一步发展,加速人工智能的普及。
大模型的独特之处包括:智能涌现;泛化能力,适用场景更多;精度不断提升,更加可靠;文本能力超群,而且具备从文本到多模态的扩展。
智能涌现:当一个系统达到一定规模或复杂度时,会出现一些在较小规模或简单系统中不可见的新特性或能力,俗称“跳跃式拐点”。
泛化能力:不仅在训练数据上有良好的表现,在训练数据之外的新数据、新场景、新领域中也展现了良好的预测和处理能力,可以举一反三。
精度提升:算法层面可以捕捉长距离依赖关系,自注意力机制提升信息整合能力;数据质量和数量都有大幅提升;采用微调等技术,进一步提升模型精度。
文本能力:包括文本生成、语义理解、信息提取、语言翻译等,有文本的地方,就可以发挥大模型的功效。