生成式人工智能应用实战（慕课版）最新章节_龙卫球著

1.3　认识大模型

大模型是近年来AI领域的重要突破，它不仅能学习海量的数据，还能像人类一样进行逻辑推理、情感理解，甚至在某些领域展现出超越人类的精准判断力。它不仅推动着AI技术的革新，还深刻地影响着人们的生活方式、思维方式和社会结构。

1.3.1　大模型的特点

大模型是指基于深度学习技术，具有海量参数、强大的学习能力和泛化能力，能实现对自然语言、图像、音频等信息进行理解、生成与推理的人工智能模型。

大模型具有以下特点。

1．依赖大量数据

大模型需要大量的数据来训练，以充分学习数据中的规律。这些数据通常包括文本、图像、音频等多种类型。例如，训练一个用于自然语言处理的大模型，需要海量的书籍、新闻文章、网页文本等数据。通过对这些数据进行无监督学习或监督学习，大模型能不断优化自身的参数，从而提升自身性能。

2．学习能力强

由于具有海量的参数，大模型能学习到数据中极其复杂的内容。以自然语言处理为例，在语言翻译任务中，大模型可以捕捉到不同语言之间的细微语义差异、语法结构变化等复杂关系。例如，它能理解一种语言中的隐喻、双关语等表达方式，并将其准确地翻译到另一种语言中，而这些复杂的语言现象对于小规模模型来说是很难掌握的。

此外，随着新的数据不断出现，大模型可以通过持续学习的方式进行更新。例如，一些在线学习系统会不断收集用户的反馈数据，并利用这些数据对自身模型进行微调，使其能适应新的语言表达、新的知识领域等。这种自学习能力使得大模型能不断进化，保持其性能的先进性。

3．可迁移性高

大模型在经过大量数据训练后，可以生成通用的特征表示，适用于多种任务和领域。例如，一个在海量文本数据上预训练的大语言模型，经过微调后可以用于文本生成、情感分析、问答系统等多种自然语言处理任务。在计算机视觉领域，预训练的大模型也可通过迁移学习应用于图像分类、目标检测等多种任务。

4．较好的泛化能力

大模型在经过大规模数据训练后，通常具有较好的泛化能力。这意味着它能对未见过的新数据做出相对准确的预测。例如，一个在多种语言文本上训练的大语言模型，即使遇到一种它没有专门训练过的小语种文本，也有可能通过其学到的语言通用规律（如语法结构、语义关联等）来生成合理的翻译或回答。这种泛化能力使大模型在面对多样化的任务和数据时具有一定的适应性。

5．对计算资源有较高的需求

训练大模型需要强大的计算能力。由于大模型参数众多，每一次的参数更新都需要进行大量的矩阵运算。例如，训练一个参数量为数十亿的大模型，可能需要使用多个高性能的GPU集群，训练时间可能持续数周甚至数月。而且，随着大模型规模的进一步增大，对计算资源的需求也呈指数级增长。

在大模型推理时，也需要较高的计算资源。虽然推理阶段的计算量相对训练阶段较小，但对于一些实时性要求较高的应用场景（如在线翻译、实时语音识别等），仍然需要高效的计算设备来保证大模型能快速响应。例如，一些基于大模型的智能语音助手需要在短时间内处理用户的语音指令并给出回答，这就对推理设备的计算能力提出了较高的要求。

1.3.2　大模型的类型

随着技术的不断发展，大模型已从单一技术走向多元化发展，其能力边界随着数据、算法与算力的进步持续拓展，大模型的类型划分如表1-5所示。

表1-5　大模型的类型划分

续表

1.3.3　国内主流大模型的功能

近年来，国内众多科技企业和科研机构纷纷投入大量资源，研发具有自主知识产权的大模型。这些大模型各具特色，既体现了国内AI技术的高水平，也展示了我国在这一领域的创新能力和应用潜力。

1．DeepSeek

DeepSeek是杭州深度求索人工智能基础技术研究有限公司开发的大模型，其主要功能如下。

●文本生成与处理：自动生成文章、故事、广告文案等内容；支持文本翻译、情感分析、信息抽取等自然语言处理任务。

●智能对话与问答：具备聊天功能，能理解上下文并生成连贯的回答。结合搜索功能，能提供最新的知识问答。

●代码生成与辅助：支持代码补全、生成、优化和错误检测，覆盖多种编程语言。

●文档处理：支持PDF等格式的文档解析，提取和处理文本及图像内容。

●智能搜索与推荐：支持实时联网搜索，提供最新的信息和内容推荐。

●多语言支持：支持中英文等多种语言的交互。

DeepSeek有DeepSeekV3通用模型和DeepSeekR1推理模型。DeepSeek-V3通用模型既高效又便捷，适用于处理规范性任务；DeepSeek-R1推理模型擅长处理需要进行复杂推理和深度分析的任务，更适用于开放性任务。

2．通义

通义是由阿里云推出的大模型，具备强大的语言处理和多模态融合能力，其主要功能如下。

●文本生成与处理：撰写故事、公文、邮件、剧本、诗歌等；具备文本润色、摘要提取等功能。

●多模态融合：支持文本、图像、语音、视频等多种模态的输入与输出，可根据首尾帧画面生成视频。

●多语言翻译：支持多种语言的翻译服务。

●对话与问答：提供自然、流畅的对话体验，支持多轮对话。

●编程辅助：编写和优化代码。

●数据可视化：支持图表制作和数据呈现。

3．豆包

豆包是抖音有限公司推出的一款大模型，其主要功能如下。

●文本生成与处理：支持问答、总结、创作、分类等多种文本任务，能撰写文章、生成创意文案；具备文本润色、摘要提取等功能。

●多模态交互：支持图像、视频、语音等多种模态的输入与输出，能对图像、视频内容进行深度理解，支持视觉推理、图像识别；具备语音合成能力，能识别多种情绪的语音表达，语音识别准确率高，延迟低；能通过精准语义理解，生成高质量视频，支持文本和图片生成模式；支持文生图与图生图，支持多种风格变换。

●代码生成与优化：支持多种编程语言，能生成高质量代码。

●数学与逻辑推理：在数学、编程、科学推理等专业领域表现突出。

4．文心一言

文心一言是百度推出的大模型，其主要功能如下。

●语言处理：能进行文学创作、商业文案创作，生成各种体裁的文本，还可处理数理逻辑推算、代码生成等任务，在知识问答、语言理解与生成方面表现出色，支持多轮对话，能准确理解上下文。

●多模态：具备原生多模态能力，可处理图片、视频等，如根据文本生成图片，支持图片重绘、局部编辑，能对图片内容进行理解分析，还可分析视频内容，如解读电影片段情节等。

●信息处理与分析：可对文本进行分类、情感倾向性分析及相似度比较。借助插件实现实时信息搜索，处理长文档，生成摘要，能汇总文本数据并以表格形式呈现，方便信息整理和分析。

●多样化服务：支持语音输入，方便用户交流和探索。此外，文心一言还具有数字分身、智能体等功能，能为用户提供多样化服务。

5．讯飞星火

讯飞星火是由科大讯飞推出的认知智能大模型，其主要功能如下。

●多模态交互：可理解图片内容并准确描述，围绕图片回答用户问题，还能根据用户描述生成音频和视频，以及整合AI虚拟人资料生成匹配视频。

●文件处理：支持上传文档、音频、视频、图片等多类型文件，可智能管理、总结分析文件内容，还能基于文件生成报告、演讲稿等不同风格内容，支持文件一键生成PPT，以及对文件进行翻译和修改、润色等二次创作。

●文本处理：能生成多风格、多任务的长文本，如写作发言稿、邮件等；具备多层次、跨语种的语言理解能力，可进行语法检查、翻译等；还能回答泛领域开放式知识问题。

●逻辑推理：具有情景式思维链逻辑推理能力，可进行科学、常识等推理。

●数学解答能力：能解答多种数学题型，具备数学思维并给出解题步骤。

●代码处理：支持代码理解、修改和编写。

●个性化定制：提供丰富参数设置，可实现个性化模型体验，针对企业级定制化需求提供专属解决方案。

●插件拓展：通过插件拓展应用场景，如生成简历、生成PPT、文档问答等。

6．混元

混元是由腾讯公司全链路自研的大模型，其主要功能如下。

●多轮对话：具备上下文理解和长文记忆能力，能流畅地完成各专业领域的多轮知识问答。

●内容创作：支持文学创作、文本摘要、角色扮演等，能生成流畅、规范的文本。

●逻辑推理：能准确理解用户意图，并基于输入数据或信息进行推理和分析。

●知识增强：能有效解决事实性和时效性问题，提升内容生成效果。

●多模态生成：支持文生图像、文生视频、图生视频等多种生成能力。

混元大模型被广泛应用于腾讯的多款应用（如腾讯文档、腾讯会议、微信输入法等）和业务流程中，以AI助手的形式提高用户的工作效率。

AI小课堂

本地部署大模型是指将大模型的模型文件、计算资源和相关服务部署在本地服务器或本地数据中心，而不是依赖远程的云服务提供商来运行大模型。这种模式下，大模型所有的数据处理、计算和存储都在本地环境中完成，用户对大模型拥有完全的控制权。

本地部署大模型的优势主要体现在以下5个方面。

●企业可基于本地数据对大模型进行私有化微调，使其更贴合本企业的业务场景。

●确保数据在本地环境中处理，减少数据外传风险，更好地保护敏感信息。

●大模型能在无网络或弱网络环境中独立运行，确保服务不中断。

●摆脱对第三方云端服务的依赖，掌握数据与模型的控制权，规避服务中断或技术壁垒风险。

●本地计算省去网络传输延迟，大模型的响应速度更快。

1.3 认识大模型

1.3.1 大模型的特点