DeepSeek全场景指南最新章节_程希冀著

DeepSeek蒸馏模型

DeepSeek官方基于R1模型训练了6款蒸馏版小模型。这些模型的训练是采用了 R1 带推理的输出数据进行蒸馏，在其他开源模型（基座模型）基础上进行的。表1-2列出了DeepSeek官方使用R1模型蒸馏的几款小模型，其中名称中的Destill代表“蒸馏”。

表1-2 DeepSeek官方使用R1模型蒸馏的几款小模型

1 Qwen为通义系列开源AI大模型，Qwen 2.5即其2.5版本，分为多个不同参数量的子版本。

2 Llama是美国Meta公司推出的开源AI大模型系列。Llama-3.1即其3.1版本，分为多个不同参数量的子版本。

蒸馏版模型与原有模型相比，性能有明显下降，但同时换取了可以在较低配置的 GPU 和计算机上部署的可能性。在本书的后续章节中将详细说明如何在本地部署这些蒸馏版模型。