随着2022年大模型技术的突破,各类基于大模型的应用逐步普及到大众的工作和生活中。大模型的核心在于迅速响应人们对信息处理和智能服务的需求。大模型不仅能在文本创作、翻译等方面提供帮助,其应用还能扩展至图像处理、语音处理和推理规划等多个领域。这种强大的信息处理能力极大地提升了人们获取、理解和应用信息的效率,进而能显著提高工作效率。
大模型的技术创新和发展不仅加速了科技进步,而且在推动经济增长方面发挥了不可或缺的作用。这些先进的模型已经渗透到众多行业和领域,包括但不限于教育、医疗、游戏等,为各行业的企业开辟了新的商业机会和市场。同时,大模型的发展也促进了一系列相关产业的兴起,如云计算、大数据等。在科研和技术创新领域,大模型和其他新技术的结合,产生了新的产品、服务和业态,为经济的增长提供了新的动力。
大模型是人工智能领域几十年技术积累和研究沉淀的结果。大模型的概念已经不再是单纯的模型本身,而是硬件、算法、模型、数据、算力和应用等技术的综合体现。
深度学习是人工智能领域最重要的分支,经过几十年的发展,其在模型的参数规模和信息推理能力方面取得了重大突破,从而促进了大模型的创新和发展。
深度学习技术的发展经历了4个阶段,如图1.1所示。
图1.1 深度学习技术的发展阶段
1943年,Warren McCulloch和Walter Pitts发表论文“A logical calculus of the ideas immanent in nervous activity”,提出了人工神经元模型MCP(McCulloch-Pitts)。此模型模拟了神经元之间信息的传递和处理方式,为神经网络和人工智能研究奠定了基础。
1958年,Frank Rosenblatt提出了感知机模型和感知机学习算法(Perceptron Learning Algorithm,PLA)。PLA通过不断调整神经元之间的连接权重,使得神经网络能够自动学习和适应输入数据的模式,从而实现了神经网络学习。
1969年,Marvin Minsky和Seymour Papert指出,PLA是一种线性模型,无法解决4个输入参数的XOR(异或)问题。这一发现象征着深度学习领域首次遭遇挫折,随后该领域经历了长达近20年的相对停滞期。
1986年,Geoffrey Hinton等人提出了多层感知机(Multilayer Perceptron,MLP)模型,并在MLP的基础上实现了反向传播算法(Back Propagation Algorithm,BP),使得神经网络训练可以到达更深的层次,有效解决非线性分类和复杂训练的问题。此外,MLP可逼近任意连续函数,以便深度学习处理复杂的任务。
1989年,Yann LeCun等人利用BP算法成功训练了卷积神经网络(Convolutional Neural Network,CNN),并将其应用于手写邮政编码的识别。CNN通过卷积操作和权值共享机制,提高了处理图像和视觉数据的效率。
1990年,Jeffrey Elman在论文“Finding Structure in Time”中提出了Elman网络——一种可用于处理序列数据和时序任务的循环神经网络(Recurrent Neural Network,RNN)。RNN通过在隐藏层引入上一时间步的状态信息,以便捕捉序列中的时间依赖关系。
1991年,Sepp Hochreiter指出,多层神经网络在训练过程中存在梯度消失问题。这一问题会导致神经网络的训练速度非常慢或训练失败。虽然通用逼近定理证明了仅需一层以上的隐藏层,神经网络便能逼近任意连续函数。于是,深度学习的研究者始终面临使用多层神经网络的困境。在这一背景下,当时的计算资源相对匮乏,无法为大规模神经网络训练提供足够的算力支持。加之支持向量机(Support Vector Machine,SVM)等统计学模型在特定任务上展现出了卓越的性能,进而使得机器学习再度陷入低谷,研究热点纷纷转向支持向量机等模型。
2006年,Geoffrey Hinton等人在论文“A Fast Learning Algorithm for Deep Belief Nets”中提出了深度置信网络(Deep Belief Network,DBN)模型。该模型通过逐层贪婪预训练的策略,解决了多层神经网络训练中的梯度消失问题。
2006年,NVIDIA推出了CUDA框架。该框架将图形处理单元(Graphics Processing Unit,GPU)的并行处理能力转化为通用的并行计算能力,使得GPU在每秒浮点操作数(Floating-point Operations Per Second,FLOPS)上比中央处理器(Central Processing Unit,CPU)高了10倍不止,从而大幅提升了算法训练的效率。
2009年,李飞飞团队发布了ImageNet数据集,该数据集包含数百万个带有标签的图像,可被用于图像分类和目标识别任务。ImageNet数据集成为许多深度学习模型和算法的基准数据集,对计算机视觉领域的发展有着重要的推动作用。
2012年,Alex Krizhevsky等人在ImageNet图像分类竞赛(ILSVRC)中,凭借AlexNet模型取得历史性的突破。AlexNet首次引入了ReLU激活函数,进一步解决了深度神经网络训练中的梯度消失问题,标志着计算机视觉进入了应用和普及阶段。
2014年,Ian Goodfellow等人提出了生成对抗网络(Generative Adversarial Network,GAN)。GAN通过生成器和判别器的对抗训练,实现了图像生成和转换。
2014年,Dzmitry Bahdanau等人在机器翻译领域引入注意力机制(Attention Mechanism),提升了模型对长序列和大文本的处理能力,这是机器翻译领域的拐点。
2015年,Google推出了TensorFlow开源深度学习框架。这些框架大大降低了神经网络模型开发和训练的门槛,促进了深度学习的研究和应用。
2016年,DeepMind的AlphaGo战胜世界围棋冠军李世石,展示了深度学习和强化学习在处理复杂任务和决策制定方面的巨大潜力。AlphaGo通过大规模数据的学习和自我对弈的训练,逐步提高自身水平,开启了人工智能发展的新篇章。
2017年,Google在论文“Attention is All You Need”中提出了Transformer模型,该模型避免了RNN模型中常见的梯度消失或爆炸问题,从而在机器翻译任务上的表现全面超越RNN模型。这一突破性的创新迅速扩散到整个深度学习领域,后续的BERT和GPT算法架构均是基于Transformer架构提出的。
2021年,DeepMind在国际蛋白质结构预测竞赛(CASP)中使用AlphaFold 2成功突破了蛋白质结构预测领域的技术瓶颈,为生物学研究和药物开发提供了新方法,展示了深度学习在解决复杂科学问题上的巨大潜力。
2022年,Stability AI推出了开源模型Stable Diffusion。Stable Diffusion通过逐步向样本中引入噪声,使其逐渐过渡到一个简单的分布状态,随后通过逆向的扩散过程来生成高质量的图像。Stable Diffusion对比之前的GAN,具备更容易训练、对GPU资源需求更低和生成的图像质量更高的特点,成为图像生成、视频生成领域的核心模型。
2022年,David Holz发布了Midjourney。Midjourney能够根据用户输入的文本快速生成高质量且具备差异化的图片,可以大大提高设计师的工作效率。Midjourney展现出巨大的商业化和产品化潜力,使人工智能生成内容(Artificial Intelligence Generated Content,AIGC)成为舆论的焦点。
2022年,OpenAI发布了基于1750亿参数规模的大语言模型应用ChatGPT,它所展示的能力充分证明了大模型在社会各领域的应用潜力。仅仅两个月,ChatGPT的活跃用户数就突破1亿,彻底“引爆”了人工智能,使大模型相关产业飞速发展。
2024年,OpenAI发布了基于文本生成视频的应用Sora。Sora不仅能够生成长达60秒的视频内容,还具备对现实世界的惊人建模与模拟能力,这意味着AI技术正在朝着能够全面理解和模拟物理世界规律的方向发展,通用人工智能(Artificial General Intelligence,AGI)的实现成为可能。
自2021年起,大模型在全球范围内经历了一段快速增长期,其市场规模呈现出显著的指数级增长。与此同时,国内大模型相关应用在Android渠道上的下载量也呈现出类似的指数级增长趋势,被消费者广泛接受。
根据大数据之家、钛媒体数据,从全球市场来看,2020年大模型的全球市场规模为25亿美元。到2028年,大模型的全球市场规模预计达到1095亿美元。
2020—2028年大模型的全球市场规模如图1.2所示。
图1.2 2020—2028年大模型的全球市场规模
根据大数据之家、钛媒体数据,从中国市场来看,2020年大模型的中国市场规模为15亿元。预计到2028年,大模型的中国市场规模达到1179亿元。
2020—2028年大模型的中国市场规模如图1.3所示。
图1.3 2020—2028年大模型的中国市场规模
国内的大模型相关应用包括腾讯元宝、豆包、讯飞星火、文心一言、智谱清言、天工、通义和Kimi等,这一类应用在Android渠道的下载规模呈现超高速增长的态势。2023年8月6日到2024年8月6日,国内大模型相关应用在Android渠道的累计下载量达到8.2亿,如图1.4所示。
图1.4 国内大模型相关应用在Andriod渠道的累计下载量
随着大模型技术的快速发展,大模型相关应用如雨后春笋般涌现。本节将以通用大模型技术的应用和领域大模型技术的应用为例,阐述大模型的应用现状。
通用大模型技术应用的场景主要包括自然语言处理、图像处理和视频处理等,如图1.5所示。
图1.5 通用大模型技术应用的场景
针对自然语言处理的典型大模型应用有OpenAI的ChatGPT、Anthropic的Claude、腾讯元宝、字节旗下的豆包等,其核心功能如下。
● 智能问答:支持多模态的智能问答,结合深度搜索模式,可以提供更新、更专业、更全面的信息。
● 文档写作:通过大模型的语言理解和输出能力,可以辅助内容创作,完成报告、方案的撰写等。
● 语言翻译:支持多种语言的对话,理解不同语言的任务,并且提供高质量的多语言翻译服务。
● 内容摘要:支持对多种类型的文档、链接、图片等进行解析和信息总结。
针对图像处理的典型大模型应用有Midjourney、OpenAI的DALL-E 2、开源的Stable Diffusion等,其核心功能如下。
● 图像生成:用户描述场景或角色,大模型能够将这些语义信息转换为视觉元素,生成高质量的图像。
● 图像修复:能够处理低质量或受损的图像,使其变得更加清晰和逼真。
● 风格转换:能够将图像转换成不同的艺术风格,例如印象派、涂鸦等。
● 图像编辑:能够执行常见的图像编辑任务,如裁剪、调色和添加元素等。
实际使用时,需要提前准备好提示词(Prompt),并将提示词给大模型,这样大模型才能完成相应的图像处理任务。以Midjourney为例,给到大模型的提示词是“在夜晚的雪地中,一位拥有星星般的发光肌肤的女性,被花朵环绕,呈现出奇幻的风格。女性闭着眼睛,创造出一种超凡的效果。她的脸和脖子上有星星,增添了场景的魔幻感。--chaos10--stylize150--pdzkthys--ar3∶4”。此时,大模型会根据提示词生成高清图片,如图1.6所示。
图1.6 Midjourney根据指定提示词生成的高清图片
大模型应用于音视频方向的典型场景包括视频生成、视频增强、音频生成、音频增强等。
针对视频处理的典型大模型应用有OpenAI的Sora、Luma的Dream Machine、Runway的Gen-3、Pika labs的Pika和MiniMax的海螺AI等,其核心功能如下。
● 文生视频:能够将用户提供的文本描述转化为动态的视觉内容,并在生成视频时模拟现实世界的物理规则,生成包含多个角色和复杂背景的视频。
● 多模态输入:支持基于文本、图像或视频输入来生成视频,或者在现有视频的基础上进行内容修改或者视频延长。
● 角色一致性:能够在模拟现实世界物理规律的同时,保持角色的完整性,确保视频内容在时间上的连贯性和逻辑性。
● 多种镜头运动:支持一系列流畅、电影化和自然的摄像机运动,确保与每个场景的情感基调相匹配。
同图像处理类似,实际使用时,需要准备好提示词给大模型,这样大模型才能生成视频。以Dream Machine为例,给到大模型的提示词是“该场景是从穿过繁忙的城市街道的骑行者角度拍摄的。摄像机捕捉到了自行车的车把、前方的道路和周围的交通情况。当骑行者穿梭在街道上时,行人、汽车和店面都模糊地闪过。使用POV镜头让观众身临其境地体验骑行,强调了速度和活力”。此时,大模型会根据提示词生成视频,视频的截图如图1.7所示。
图1.7 Dream Machine根据指定提示词生成的视频的截图
另外,在音频生成和音频增强领域,用户也可以使用文本提示词来生成完整的音乐,其中典型的大模型应用有Udio、Fryderyk、Suno和网易天音等。
大模型技术的应用已经广泛深入各个专业细分领域。本节将以大模型在科学发现、机器人、企业应用,以及代码编程等关键领域的技术应用现状为例,展示其在推动行业创新和解决复杂问题方面的潜力。领域大模型技术应用的典型场景如图1.8所示。
图1.8 领域大模型技术应用的典型场景
大模型应用于科学发现领域的典型场景包括蛋白质预测、新材料发现、药物开发和天文物理等。
● 蛋白质预测:如DeepMind的AlphaFold 3,不仅能预测单个蛋白质序列或蛋白质复合物的结构,还能预测蛋白质与其他蛋白质、核酸、小分子中的一种或多种物质复合的结构。此项技术是一个革命性的创新,能够预测所有生命分子的结构和相互作用,并且在预测蛋白质与其他分子的相互作用的准确率上比传统方法提高50%。
● 新材料发现:如DeepMind的GNoME(材料探索图形网络)平台,其在17天内独自创建了41种新材料。GNoME发现了超过220万种稳定结构,将稳定结构的预测精确度提高到80%以上。在预测成分时,每100次实验的精确度提高到33%,此前仅为1%,相比之下,其速度和精确度远超人类。
● 药物开发:如Atomwise公司的AtomNet平台,其运用一种虚拟高通量药物筛选(High-Throughput drug Screening,HTS)方法,可以在由超过15万亿个可合成化合物组成的、不断扩大的化学库中进行搜索,准确地找到与任何已知结合剂截然不同的新型结合剂,从而在新的化学空间中找到热门药物。
● 天文物理:中国天眼FAST望远镜在寻找脉冲星的过程中,使用AI技术来应对每秒高达38 GB的传输数据,大幅提高了搜索效率。
针对机器人领域的典型大模型应用有DeepMind的RT-2、Google的PaLM-E、Covariant的RFM-1和北京大学的RoboMamba等,此类应用的核心功能如下。
● 多阶段任务规划:能够根据视觉和语言输入完成复杂的多阶段任务规划,例如决定哪种物体可以用作临时的锤子。
● 自主操作与控制:能够应对任务执行期间可能发生的中断,显示出对环境的适应性和弹性。
● 多模态理解和生成:能够对输入的语义和视觉进行理解,解释成命令,并通过执行基本推理来响应用户指令。
● 端到端执行:能够直接从视觉输入到机器人动作输出,降低了传统机器人学习过程的复杂性。
以RT-2模型为例,展示大模型技术在机器人领域的应用。RT-2模型是一个“视觉—语言—动作”模型,需要处理的数据包括当前图像、语言命令和特定时间步骤的机器人动作。RT-2模型可以将现有的视觉语言模型与机器人动作数据进行共同微调,通过生成的机器人动作文本字符串(如“1 128 91 241 5 101 127 217”)驱动机器人执行相应动作,于是,机器人就有了自主应对新对象、新环境和新任务的能力。
大模型在企业应用领域的典型应用场景包括智能营销、智能设计、智能制造和智能客服等。
● 智能营销:Jasper 是一款专为企业营销场景研发的AI工具。例如,可以将AI生成的图像内容重新包装成符合品牌风格的多种格式和语言;支持跨平台使用,允许用户通过电子邮件、社交媒体和企业官网等多个渠道发布内容;具备撰写高质量文案的能力,支持用户上传品牌风格的写作指南,让AI模仿,从而确保内容的一致性;支持集成到常用开发工具和浏览器中,提高内容创作效率。Jasper 还是一个多人协作AI平台,可以在其中分配工作、查看状态等。
● 智能设计:新思科技(Synopsys)的DSO.ai通过AI自动优化流程,提高芯片设计的效率和质量。DSO.ai通过强化学习进行智能设计和优化,可在优化过程中智能优化数万亿个设计方案,从而在设计空间中实现更好的优化结果。DSO.ai还能够同时针对多个目标(如性能、功耗和面积等)进行设计空间优化,并在这些目标之间找到最佳平衡,实现更高效和有效的设计。此外,DSO.ai还支持从寄存器传输级(Register Transfer Level,RTL)到最终版图(GDSII)的全流程自动优化,从而缩短设计时间,提升设计质量。
● 智能制造:ClondNC通过AI可以实现无须模板或宏即可生产出优质零件,以及自动生成专业的加工策略,从而使得以前需要数小时甚至数天才能完成的任务,现在只需几分钟或几秒钟就能完成。使用ClondNC生成加工策略能够延长机器的正常运行时间、缩短交货时间和提高流程稳定性。
● 智能客服:Salesforce的Einstein平台通过AI技术提供多种功能,从而改善客户体验和提高服务效率。例如,通过自动化客户服务任务,帮助服务团队节省时间,从而服务团队可以专注于更复杂的客户问题;通过理解客户查询的自然语言,自动提取关键信息并将其路由到正确的服务代表或解决方案;根据客户的历史交互和偏好,推荐个性化的服务选项和解决方案;自动从客户交互中提取信息,并更新知识库,使服务团队能够快速地找到解决方案。
大模型应用于代码编程领域的典型应用有GitHub Copilot、Tabnine、JetBrains Fleet等,此类应用的核心功能如下。
● 代码生成:根据开发者的注释或代码描述,能够生成多种编程语言的代码,支持Python、JavaScript、TypeScript、Ruby、Go、Java等。
● 代码补全:能够根据上下文、已有的代码、相关的代码库及开发者的编码习惯,给出合适的代码补全建议,帮助开发者快速编写程序。
● 错误检查:能够在开发者编码时识别潜在的错误,并给出修复代码的建议,从而提高代码的质量和可维护性。
● 测试用例:能够解释已有代码,并且根据现有代码生成测试用例,同时生成注释。
使用GitHub Copilot生成测试用例,如图1.9所示。
图1.9 使用GitHub Copilot生成测试用例
在使用大模型生成代码的领域中,SQL代码生成是一个重要的研究方向,它能够通过大模型解析用户描述的自然语言需求并生成相应的可执行SQL代码,还可以生成BI图表等,从而完成数据分析。
本章重点阐述了大模型的发展现状。首先,通过介绍大模型的发展历程,深入探究深度学习技术演进的关键阶段;其次,通过介绍大模型的市场规模,揭示当下大模型的市场普及程度;最后,以通用大模型技术的应用和领域大模型技术的应用为例,详细阐述大模型技术的应用现状。这些内容可为读者后续学习大模型在数据体系中的应用提供背景知识。