购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.2 大模型的过去、现在与未来

1.2.1 大模型简史

大模型技术的发展历程较短,为最近几年的一项突破性技术。该技术是建立在深度学习技术基础之上,并作为神经网络规模及训练数据规模扩展(scaling)的结果而诞生的。在推动深度学习领域向前发展的过程中,神经网络技术的创新发挥了关键作用。然而,随着时间的推移,人们逐渐洞察到,神经网络规模与训练数据规模的扩展才是实现该领域重大飞跃的核心所在,引导着人们步入了大模型的时代。回顾神经网络的发展历程,对于理解这一转变的发生具有重要意义。

计算机科学家使用神经网络解决人工智能问题的尝试可以追溯到20世纪四五十年代。1943年,Warren McCulloch和Walter Pitts提出神经元的M-P模型 [2] ,开启了神经网络的研究。1957年,就职于康奈尔航空实验室的Frank Rosenblatt发明了一种称为感知器(perceptron)的人工神经网络 [3] ,可以视为最简单的前馈神经网络。不过那时没有用于训练神经网络的有效算法,很快,20世纪70年代神经网络的研究进入第一个寒冬,一直持续到20世纪80年代中期。1974年,Paul Werbos在其博士论文中提出了著名的BP神经网络学习算法,但没有引起重视。1986年,Hinton等人重新研究了这一算法 [4] ,它才受到重视。在同一时期,适用于图像处理的卷积神经网络结构被提出。特别是1989年,LeCun结合BP算法与权值共享的卷积神经层发明了卷积神经网络,并成功应用于识别美国邮政服务的手写邮政编码数字。随后,适用于自然语言处理的LSTM也被提出。由于BP算法可以训练多层(浅层)神经网络,在这个时期神经网络技术得到较大的发展,研究者在应用方面也做了不少探索,甚至有成功的案例。到20世纪90年代中期,神经网络在理论上的突破有限,且面临一些实际应用中的挑战,如(浅层)神经网络容易过拟合、训练收敛慢等。与此同时,统计学习理论开始获得更广泛的关注和认可。基于这一理论,发展出了一种新型的机器学习方法——支持向量机(Support Vector Machine,SVM)。SVM在初期的实验和应用中展现了超越传统方法的性能优势。此后,神经网络的研究又进入一个长达十多年的寒冬。

2006年前后,计算能力得到大幅提升,互联网的发展提供了大规模的数据。Hinton等人提出了逐层训练的方法,使得训练更多层神经网络成为可能。在大规模数据和深度神经网络两大因素加持下,神经网络计算可以摆脱局部极小值,找到全局最小值,人工智能进入了深度学习时代。2012年AlexNet [5] 横空出世,一举将ImageNet的Top-5识别错误率降低了近10个百分点。图1.1中是AlexNet的三位作者。

图1.1 AlexNet的三位作者,从左到右依次是Ilya Sutskever、Alex Krizhevsky和Geoffrey Hinton

AlexNet网络的架构包括5个卷积层和3个全连接层,是当时最深的网络之一。由于网络太大,Alex Krizhevsky利用了模型并行性,将并行卷积流跨两个GPU分割,使用CUDA(Computer Unified Device Architecture,统一计算设备架构)高效实现了AlexNet模型。训练是在ImageNet的120万幅高分辨率图像上进行的。模型的深度和训练数据集的规模被证明是AlexNet取得成功的关键。这是深度学习的重要时刻,第一次向世界展示了神经网络规模和训练数据规模的扩展将带来人工智能前所未有的突破。而在强大的GPU上训练使得这种突破得以实现。

在接下来的几年,研究人员将深度学习与强化学习相结合,开发出深度强化学习技术。基于深度强化学习技术,开发了一些强大的人工智能系统,如OpenAI公司的OpenAI Five、DeepMind公司的AlphaGo。这些突破将深度学习浪潮推向新的高度。

1.2.2 大模型的现状

大模型时代,技术取得突破性进展,大量资本涌入,出现了很多玩家。和历史上其他高科技产品一样,早期市场由技术突破引导,少数有远见者主导向主流市场过渡,需要业界的大量实用主义者共同推进。因此,下面从大模型的技术突破和玩家两方面介绍大模型的现状。

1.大模型的技术突破

在深度学习浪潮中出现了不少技术突破。不过,深度学习技术的理念,即模型能力会随着神经网络规模的扩展不断提升,是带领我们进入大模型时代的关键。当然,并不是神经网络结构的创新不再重要。例如,有了残差结构,才能让神经网络层不断堆叠而不会出现梯度消失。再例如,后来有了Transformer神经网络结构,才能在互联网量级的文本上训练而不会过拟合。不过,这些网络结构的创新是为了应对扩展神经网络规模面临的挑战,而模型能力的不断提升是神经网络规模的扩展带来的。

2018年,在首席科学家Ilya Sutskever的带领下,OpenAI公司开始开发GPT系列大语言模型,将其作为通往通用人工智能(Artificial General Intelligence,AGI)之路的一个重要尝试。Sutskever确立了以Transformer为网络架构,不断扩展神经网络规模和训练数据规模的技术路线。这个尝试取得了巨大突破,大语言模型显示出强大的语言理解和生成能力,展现了AGI的雏形。Sutskever是AlexNet的作者之一,据说他在大三(2004年)时就开始跟随Hinton学习。由此也就不难理解,GPT为什么会采取那样的技术路线,为什么会取得成功。图1.2梳理了GPT技术演进路线。

GPT-1确定了Decoder-only的Transformer架构。GPT-2确定了其他细节,例如分词(tokenization)、位置编码、Transformer架构优化等,能够处理更长的序列,表现出更好的语言理解和生成能力。

在面对新任务时,人类通常仅需一个与任务相关的指令和若干示例,便能够理解并执行任务。这种现象启发了上下文学习(In-Context Learning,ICL)能力的概念。大语言模型在预训练阶段所获得的广泛基本技能和识别能力,使得大语言模型具有根据少量任务示例进行推断的能力。OpenAI公司在其GPT-3模型中特别强调了零次或少次提示(zero-/fewshot prompt)的能力。据此,可以推测OpenAI公司的目标是超越“预训练+微调”这一自然语言处理的范式,期望通过简单的零次或少次提示使预训练模型能够直接解决各种问题,无需额外的微调步骤。

图1.2 GPT技术演进路线

注:*为推测数据。

然而,后续的InstructGPT模型引入了有监督微调以及基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)技术。这可以被视为在当前大型模型能力还不够强大的情况下,实现大模型在多个领域广泛应用的一种临时解决方案。目前,为了在特定领域有效部署大型模型,有监督微调几乎成为一个不可或缺的步骤。随着技术的不断进步,有监督微调可能会变得不再必要,或者其重要性将大幅降低。但是,为了确保人工智能的安全和可靠性,对齐技术预计仍将发挥关键作用。

GPT-3之后,或者准确地说,InstructGPT之后,OpenAI公司就很少披露后续模型的相关技术进展了。因此,像GPT-4是否采用MoE模型架构、训练数据集等问题,种种说法都是基于猜测的。而对于GPT-4o是如何融合多个模态输入进行端到端训练的,外界都不知道相关技术细节。

2.大模型玩家

目前大模型玩家可以分为基础设施层玩家、模型层玩家和应用层玩家。不过,鉴于目前大模型要在实际场景中有效落地,还需要在模型能力上有进一步突破,这里集中讨论模型层玩家,包括开源玩家和闭源玩家,这也是目前占据主导地位的大模型玩家。

1)国外玩家

国外几个主要的闭源玩家包括Google、OpenAI、Anthropic、xAI等。Google公司发布了多款大模型,有代表性的包括PaLM以及Gemini系列。Gemini 1.0是第一个原生多模态大模型。Gemini 1.5在长上下文能力上取得重大突破。OpenAI公司先后发布了ChatGPT、GPT-4、GPT-4o。GPT-4是一个具有里程碑意义的模型,在综合能力上占据主导地位长达1年,一直是行业标杆。不过在后来长达一年半的时间内,OpenAI都没有发布下一代的类似GPT-3和GPT-4有较大能力突破的大模型。而是采取在GPT-4基础上渐进迭代的方式,逐步推出改良的GPT-4版本。2024年5月发布的GPT-4o虽然较Gemini 1.0晚了将近半年,不过是一个用户体验很好的原生多模态大模型。具有实时语音交互能力。最近发布的o1大模型,利用强化学习在推理能力上取得重大进展。Anthropic发布了Claude系列。Anthropic由OpenAI的前高管创立,实力强劲。每一代Claude的综合能力都有较大提升,Claude 3基本已经追平最新版本的GPT-4。不过似乎它家在原生多模态大模型上的关注度没有OpenAI那么大。xAI起步比较晚,不过速度很快。公司成立不到4个月时间就推出Grok大模型,并且在2024年3月将其开源。目前xAI的Grok系列已经迭代到2.0版本。

国外几个主要的开源玩家包括Hugging Face、Meta、Mistral等。Hugging Face公司发布了BLOOM 7B/176B。BLOOM是一个多语言模型,缺点是训练数据量不够,训练不够充分。在2023年上半年开源模型匮乏的情况下,BLOOM对开源社区特别是研究机构起到了一定的推动作用。Meta公司先后发布了Llama 1、2、3以及最近的Llama 3.1 405B。Llama使用了上万亿个词元进行了充分的训练。可以说,Meta公司发布的Llama 1、2对2023年开源社区大模型的发展起到了巨大的推动作用。2024年7月发布的Llama 3系列更是将开源模型的能力提升到与闭源模型几乎并驾齐驱的地步。Mistral公司在2023年先后发布了Mistral 7B、Mixtral 8x7B。Mixtral 8x7B采用了稀疏MoE架构并表现出强劲的性能,引领了大模型架构的新风潮。Mistral公司在2024年发布了Large系列,这些模型的性能接近了当时的SOTA。

从评测结果来看,2023年开源模型与闭源模型的性能有一定差距。特别是在数学、代码和推理能力上,差距一直比较大。2024年Meta发布的Llama 3.1和Mistral公司发布的Mistral Large 2综合能力大幅提升,在相关的评测集上与最好的闭源模型已经几乎一样好了。图1.3展示了Llama 3.1 405B与当前最先进的闭源模型GPT-4 Omni和Claude 3.5 Sonnet在一些关键评测集上的对比结果。可以看到,在数学、代码和推理能力上,这3个模型分数差别已经非常小了。

图1.4则展示了截至2024年8月8日LMSYS Chatbot Arena 排行榜中排在前列的11个模型。可以看到,开源模型Llama 3.1 405B和Mistral Large 2位居前列,与最强的3个闭源模型Gemini 1.5、GPT-4o、Cluade 3.5 Sonnet只有微弱的差距。

2)国内玩家

国内大模型竞争激烈,仅通用大模型就有很多家。闭源模型的主要玩家包括百度、腾讯、字节跳动、MiniMax、智谱AI、百川智能、月之暗面等。闭源模型的主要玩家可以分为传统大厂和大模型创业公司。

图1.3 Llama 3.1 405B、GPT-4 Omni和Claude 3.5 Sonnet的对比

图1.4 LMSYS Chatbot Arena排行榜(2024年8月8日)

百度是国内最早推出大模型的公司之一。2023年3月推出文心一言大模型,而且一直在快速迭代中,最近已经迭代到4.0。腾讯在大模型方面的布局比较稳健,不追求速度,2023年9月才推出混元大模型。字节跳动在大模型方面起步也比较晚。2023年8月,它宣布云雀大模型上线。2024年5月,字节跳动旗下的火山引擎发布了豆包大模型家族,包括通用模型、语音识别模型、语音合成模型、文生图模型等多款产品。豆包大模型自上线后流量很不错。同时,字节跳动积极地在旗下C端业务的多个场景中尝试融入大模型技术。在B端,字节跳动通过升级火山引擎来降低企业使用大模型的成本和技术门槛,和百度、阿里巴巴争夺企业客户。这几个玩家属于大厂,拥有资金、算力和应用场景优势。

MiniMax、智谱AI、百川智能、月之暗面属于大模型创业公司的代表,拥有不错的大模型技术积累和融资情况。MiniMax是国内大模型独角兽中业务布局相对全面的一家。既有自研大模型产品abab,又有多款toC原生应用,也有面向企业和开发者的toB开放平台。它的出海APP Talkie全球月活跃用户已经超千万。它在国内推出AI助理APP“海螺AI”和Talkie的国内版本“星野”。智谱AI源自清华大学的知识工程实验室,创始团队是国内最早开始探索大模型的一批人,技术沉淀较深。大模型迭代速度也很快,智谱AI差不多以3个月迭代一次的速度更新它的大模型。2024年1月,智谱AI发布了它的基座大模型GLM 4。智谱AI产品矩阵布局广,大模型生态全面对标OpenAI,发布了大语言模型、代码大模型、多模态大模型、文生图/视频模型等产品。智谱AI的toB商业化开始得比较早,提供了轻量级的API调用、云端私有化方案、本地私有化部署、软硬件结合一体化机方案4种模式。智谱AI CEO张鹏认为,智谱AI最大的特色是从核心技术出发到整个商业化落地过程都有自己的想法,坚持自主可控的核心技术,以生态为主做商业化落地。百川智能主要专注于提升大模型在专业领域解决问题的能力。医疗、金融、能源、教育、电力等是百川智能目前重点布局的领域,其中医疗健康领域是重中之重。百川智能在一些关键行业,例如医疗和金融,还会构建垂直行业大模型,以更好地解决相关产业问题。同时百川智能也提供了API接入、私有化部署、云端私有化的模型使用方式。月之暗面则通过扩展大模型的长文本处理能力解决大模型处理专业领域问题时遇到的挑战。为了达到更好的长窗口无损压缩性能,研发和技术团队从模型预训练到对齐、推理环节均进行了原生的重新设计和开发,攻克了很多底层技术难点,取得了新的突破。

智谱AI、百川智能也开源了几个大模型。不过它们开源的是参数量比较小的模型。阿里巴巴作为一个资金雄厚、应用场景丰富的大厂,走了一条不同的路线。阿里巴巴坚持开源,它的大模型Qwen系列经过不断迭代,已成为国际先进的开源模型。

除了这几个工业界的玩家以外,还有一些科研和教育玩家,例如上海人工智能实验室、中国科学院自动化所、复旦大学、IDEA研究院等。总体来说,科研和教育玩家开发的大模型性能和工业界的玩家有一些差距。

1.2.3 大模型未来展望

大模型发展很快,因此要预测大模型的未来是很困难的。这里尝试预测未来3~5年在大模型技术和大模型玩家两方面可能取得的进展和变化。

1.大模型技术

在未来3~5年,大模型可能在以下几个方向上取得技术突破。

1)多模态

可以处理多模态输入,生成多模态输出,无疑是提升大模型能力的一个重要方向。多模态数据包括文本、图像、视频、语音等。目前,在处理文本、图像输入的视觉语言大模型方面已经有一些研究,不过在技术上还没有实现重大的突破。Google和OpenAI已经发布了原生多模态大模型,相较于业界的“桥接”多模态模型有很大的进步。不过由于这两家公司并没有发布相应的技术细节,不确定在多模态技术方面是否实现了真正的突破。从产品能力来看,多模态大模型还有非常大的提升空间。模型要同时学习多种模态,如何进行模态的表征、融合,使得多种模态所表示的信息能够互相补充、验证,构建一个真正的世界模型,是非常具有挑战性的工作。在接下来的几年,多模态大模型有望取得突破性进展。

2)大模型驱动的AI智能体(Agent)

目前的大模型可以依据压缩的世界知识,快速对用户的问题给出一次性答案。这种思维方式和人类的快思考模式很像。快思考模式对解决简单的问题非常有用。但在面对复杂的问题,这种思维模式容易出错,陷入思维的局限性。这时候人类使用的是慢思考模式。在这种思维模式下,解决任务需要一系列步骤。首先,对任务进行分解,制订执行计划。其次,在执行每个子任务的过程中需要根据分析结果采取不同的手段,可能是使用工具,可能是做试验,可能是和其他人进行讨论,等等。再次,对每个子任务的执行结果进行反思,重新规划执行计划。如此反复,直至满足某个条件。最后,对子任务执行结果进行合成,得到原始任务的解决方案。

大模型驱动的AI智能体是一个系统,其目标是让大模型胜任需要慢思考的任务。这个系统基于一个框架,在这个框架内,大模型能够进行复杂的推理,作出可靠的决策。为了实现这一目标,大模型必须具备强大的推理能力,以便在框架内执行任务分解、与环境交互、反思和综合等高级功能。预测未来几年,大模型在推理能力上能够取得显著进步。通过产品和业务专家精心设计的工作流程,可以创建相应的AI智能体,并实现它们之间的有效协作。这种结合了专家设计和大模型推理能力的AI智能体预计将实现阶段性的技术突破。

3)推理成本

近两年,大模型推理性能取得了很大的技术进展。据报道,至2024年第一季度,文心大模型的推理成本已经降至1年前发布时的1%。大模型推理在量化、缓存以及软硬件一体化设计等技术上还有不少的优化空间。在接下来的几年,大模型推理成本有望每年降低一个数量级。

2.大模型玩家

1)模型层的机会

美国通用大模型厂商比较稳定,头部的几家已经领先一个身位。模型层的竞争比较良性,估计不会有多少新的玩家入局。中国通用大模型厂商比较多,头部几家大模型性能上的差异并不大,同质化竞争比较严重。在语言理解、生成等能力上已经接近国际水平,不过在推理、多模态、智能体相关的任务自动化(agentic)等关键能力上与国际水平依然存在一定的差距。要想给B端带来真正的价值,为已有业务大幅提效,甚至创造新的有价值的业务,通用大模型还需要较大幅度地减少幻觉,提升推理能力。未来几年,中国通用大模型玩家可能将面临残酷的竞争,经过市场洗牌之后,可能只有几家能存活下来。互联网巨头有比较大的优势,它们资金充足,还有业务场景协同优势。互联网巨头在自研通用大模型的同时,也广泛投资国内的几个头部大模型创业公司。部分大模型创业公司可能被巨头收购,部分将转向行业应用方向,成为平台型的行业解决方案提供商。

2)应用层的机会

未来几年,B端是大模型应用的主战场。大模型在行业的落地目前主要有两条路径:一条是基于通用大模型的能力,开发行业产品应用或者AI智能体;另一条是融合行业Know-How构建专业的行业大模型。需要根据应用场景选择落地路径。如果场景的业务节点流程没有那么复杂,而且具有通用类型的数据,那么就可以选择前一条路径。如果一些领域的行业知识密度很高,应用场景有明显的行业属性,存在大量长期积累的私有领域数据。那么后一条路径是更合适的。前一条路径可以通过API和开放平台方式提供服务。后一条路径可以通过私有化部署方式提供服务。无论是国内还是国外,大模型B端商业化的选项基本一样。不过,由于中美在大模型技术实力以及应用场景方面的不同,中美两国的大模型B端应用必然呈现出不一样的发展路径。

美国大模型的能力更强,企业信息化程度更高。因此,B端玩家更集中,通用大模型能力比较强的几家头部闭源企业有更大的机会。B端应用将呈现比较稳定的局面,大模型厂商继续增强通用大模型的能力,采取API和开放平台的方式服务客户。通过开放功能更丰富、更强大、更好用的API和平台,拓展企业的应用场景,提供更好的解决方案,也就是前一条路径优先。

在中国,B端应用将呈现比较开放的局面,基本上两条路径并重。有别于国外,在B端,中国的初创公司将有更多的机会,成为一股不可忽视的力量。像智谱AI、百川智能、月之暗面等技术实力比较强的公司将继续打造强大的通用大模型。在此之上,采取开放API和私有化部署并存的方式服务客户。不过,行业大模型的构建可能有两种选项:部分行业的龙头企业在观望和试探之后将逐渐在大模型方面加大投入,构建自己的行业大模型;另外一些企业将基于第三方平台的通用大模型构建行业大模型。

未来几年,C端是大模型应用的另一个战场。目前国外大模型C端应用做得不错的玩家较少。OpenAI、Inflection AI、Character.AI推出的产品基本上都是问答或聊天机器人,解答人类的问题或者满足人类的情感陪伴需求。目前这类产品面临着推理成本高、商业变现难的局面。其中Inflection AI和Character.AI已先后并入微软和Google。微软在其旗下的Windows 11、Office 365和Edge中集成了大模型,产品形态是Copilot,大模型是辅助角色,可以参与到人类的工作流中,帮助人类完成工作。不过,随着大模型技术的进一步突破,大模型应用层将出现较多的C端玩家,出现真正的大模型原生(Native)应用。大模型原生应用应该是基于大模型实现核心功能,能够提供传统技术无法实现的全新用户体验的产品。未来,大模型原生应用将以哪些产品形态出现是值得期待的悬念。

此外,基于大模型的智能设备值得关注。一方面,对于个人计算机、智能汽车和手机等终端厂商而言,构建一个可以模拟人类行为实现跨应用操作,自主完成用户任务的AI智能体系统非常具有吸引力。这将带来更自然、全面的人机交互。更进一步,本地设备上存储着大量的个人数据,可以通过大模型进行整合,做到真正了解用户。苹果发布的Apple Intelligence将未来的苹果手机定义为可以自主执行复杂任务、懂用户的个人助手。另一方面,将大模型能力下沉到操作系统,或者说构建一个全新的大模型操作系统,将给消费者带来用户体验和工作效率的极大提升。在这种系统中,底层系统级的接口集成了大模型能力。第三方软件开发商可以快速开发出具有大模型能力的应用。不过考虑到端侧大模型与云端大模型能力的差距,端云协同将是实现复杂智能应用的主要模式。

3)基础设施层的机会

随着大模型应用的增加,帮助企业更快、更好、以更低的成本部署大模型在未来几年将变得越来越重要。在基础设施层,云厂商和初创公司都有很好的机会。

3.大模型发展阶段

国际知名研究机构Gartner发布的2023年中国数据、分析与人工智能技术成熟度曲线如图1.5所示,生成式人工智能技术接近期望值的峰值期。在2024年6月发布的同名报告中,生成式人工智能技术同样处于这一阶段。这反映出生成式人工智能技术目前尚未达到成熟阶段。回顾近两年大模型的发展趋势,生成式人工智能技术仍处于早期发展阶段,尽管如此,它已经展现出对前一代技术的显著优势。随着技术的成熟,预计它将在未来几年内实现市场化应用,并得到推广。

图1.5 2023年中国数据、分析与人工智能技术成熟度曲线 Tuv5iY4sP2JtGMUSz/TFD91Dv35bIUa6JBfrq+HrKwKc5ofPWPkcEFKOvtDUZxCS

点击中间区域
呼出菜单
上一章
目录
下一章
×

打开