DeepSeek应用高级教程：产品经理+研发+运营+数据分析最新章节_方兵著

1.3.1　核心技术架构对比

1．基础架构：探寻深层差异

1）模型结构设计

DeepSeek采用的MoE架构，全称为混合专家系统（mixture of experts），这是一种创新的模型结构。在MoE架构中，多个专业子模型（即“专家”）并行工作，每个专家专注于处理特定类型或领域的任务。智能路由分发机制会根据输入数据的特征，动态激活相关的专家模块。例如，在处理自然语言任务时，若遇到数学问题，负责数学推理的专家模块会被激活；若处理情感分析任务，擅长语义理解的专家则会发挥作用。DeepSeek就像一个拥有众多专业顾问的团队，每个顾问都是自己领域内的专家，团队会根据问题的性质，快速调配最合适的顾问来解决问题。

此外，DeepSeek的MoE架构还采用了无辅助损失的负载均衡设计，可确保各个专家模块的使用频率相对均衡，避免某些专家模块过度繁忙，而另一些专家模块被闲置。同时，DeepSeek采用的多头潜在注意力机制（MLA）也是一大创新，通过引入潜在向量来缓存自回归推理过程中的中间计算结果，有效降低了计算量，提升了模型的运行效率。DeepSeek MoE架构如图1-4所示。

图1-4　DeepSeek MoE架构

反观GPT，使用的是传统的Dense架构。这种架构基于Transformer架构构建而成，拥有单一大规模参数矩阵，在处理任务时，所有参数都会参与计算。其统一的注意力（attention）机制，使得模型在处理序列中的每个位置时，都会考虑整个输入序列的信息，通过全量参数参与计算来捕捉数据中的复杂模式和依赖关系。例如在语言生成任务中，模型会基于之前生成的所有单词来预测下一个单词，充分利用上下文信息。

图1-5　GPT Dense架构

GPT还采用层次化的自注意力结构，不同层次的注意力机制可以捕捉不同粒度的语义信息，包括从局部的词汇关系到整体的篇章结构。同时，位置编码与上下文理解机制也是GPT架构的重要组成部分，通过位置编码，模型能够感知单词在序列中的位置信息，从而更好地理解上下文的顺序和逻辑关系。GPT Dense架构如图1-5所示。

2）计算单元设计

在计算单元设计上，DeepSeek进行了多方面的优化。首先，专家模块可动态调度，模型能根据输入的任务类型和数据特征，灵活地选择和激活相应的专家模块，避免计算资源浪费。其次，建立稀疏激活机制，只让部分与当前任务相关的参数参与计算，大大减少了计算量。在处理简单任务时，只激活少数几个专家模块即可完成，无须调动整个模型的参数。再次，通过并行计算优化，充分利用硬件资源，将计算任务分配到多个计算单元中同时进行，可加快计算速度。最后，采用低秩矩阵分解技术，通过对矩阵进行分解，可降低矩阵运算的复杂度，提高计算效率。DeepSeek计算单元优化如图1-6所示。

GPT的计算单元设计则基于密集矩阵计算，在每一次计算中，模型全参数都会被激活并参与运算。这种方式虽然能够充分利用模型的所有知识，但也带来了较高的计算成本和资源消耗。在处理大规模数据时，全参数激活会导致计算量急剧增加，对硬件的计算能力和内存要求极高。

GPT采用序列并行处理方式，按照序列的顺序依次处理输入数据，在一定程度上保证了上下文信息的连贯性，但也限制了计算的并行度。为了缓解训练过程中的计算压力，GPT采用梯度累积优化技术，将多次小批量计算的梯度进行累积，然后再进行一次参数更新，减少了参数更新的频率，降低了计算资源的峰值需求。GPT的密集计算单元模式如图1-7所示。

图1-6　DeepSeek计算单元优化

图1-7　GPT的密集计算单元模式

2．训练策略：策略背后的较量

1）模型训练方法

在模型训练方法上，DeepSeek展现出独特的创新思路，其专家路由训练策略是一大亮点，通过智能路由机制，将输入数据准确地分配到最合适的专家模块进行处理，使得每个专家都能在自己擅长的领域发挥最大作用。在训练过程中，模型会根据输入数据的特征，动态地激活相关专家，从而提高训练的针对性和效率。

为了确保各个专家模块的均衡使用，避免出现某些专家模块过度繁忙而另一些闲置的情况，DeepSeek采用动态负载均衡机制。通过实时监控专家模块的负载情况，动态调整路由策略，使得每个专家模块都能得到充分的训练，提高了模型的整体稳定性和性能。

在分布式训练方面，DeepSeek也进行了优化。它采用高效的通信协议和并行计算策略，减少了分布式训练中的通信开销和计算资源浪费，使得模型能够在大规模集群上快速训练。同时，DeepSeek提出了增量预训练方案，它能在已有模型的基础上，通过不断添加新的数据和任务进行增量训练，使得模型能够不断学习新知识，适应新的应用场景，从而提升任务处理能力。DeepSeek的模型训练方法如图1-8所示。

图1-8　DeepSeek的模型训练方法

GPT采用不同的训练方案。它基于大规模监督学习，在海量的文本数据上进行无监督预训练，让模型学习到语言的通用模式和知识。然后，利用人类反馈强化学习（RLHF）技术，根据用户对模型输出的评价和反馈，对模型进行进一步的优化和调整，使得模型输出的内容更加符合用户的期望和需求。

在整个训练过程中，GPT采用统一预训练策略，在预训练阶段，模型对所有的任务和数据都进行统一的学习和训练，不区分具体的任务类型和数据特征。这种方式虽然能够让模型学习到广泛的知识并提升任务处理能力，但也可能导致模型在处理特定任务时，针对性不足。为了适应不同的应用场景和任务需求，GPT通常采用全量微调机制，在预训练模型的基础上，使用特定任务的数据对模型进行全量微调，使得模型能够更好地完成特定任务。GPT的模型训练过程如图1-9所示。

图1-9　GPT的模型训练过程

2）计算效率对比

在资源利用率方面，DeepSeek的优势明显。由于其采用动态激活机制，在处理任务时仅需30%～40%的动态计算资源，大大提高了资源利用率。在面对简单的文本分类任务时，模型仅需激活部分与文本分类相关的专家模块即可完成任务，无须调动全部计算资源。而GPT采用全参数激活方式，在每次计算时都需要消耗100%的静态资源，这意味着无论任务的复杂程度如何，模型都需要使用全部计算资源，导致资源利用率相对较低。研究表明，DeepSeek的资源利用率比GPT高2.5～3.3倍，在相同的硬件条件下，DeepSeek能够处理更多的任务，或者在处理相同任务时，DeepSeek所需的硬件成本更低。

在内存占用方面，DeepSeek采用动态分配策略，根据任务的需求动态分配内存资源，有效地降低了内存的峰值占用，相较于GPT，其峰值占用可降低40%。在处理长文本时，DeepSeek会根据文本的长度和复杂度，动态调整内存分配，避免了因内存不足而导致的计算中断或效率下降。而GPT采用固定分配策略，在模型运行前就固定分配好所需的内存资源，虽然这种方式能保持资源占用稳定，但在面对复杂任务或大规模数据时，可能会出现内存不足的情况，影响模型的运行效率。DeepSeek的内存优化策略显著降低了系统负载，提高了模型的稳定性和运行效率，使其在处理大规模数据和复杂任务时更具优势。

1.3.1 核心技术架构对比

1．基础架构：探寻深层差异

2．训练策略：策略背后的较量

1.3.1　核心技术架构对比