购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

回溯:DeepSeek的来时路

从公司成立时长来看,DeepSeek展现了惊人的发展速度。2023年7月,幻方量化将其AI研发部门分拆,正式成立独立子公司DeepSeek,宣布将聚焦于研发具备人类认知水平的人工智能技术。其目标不仅限于复刻ChatGPT等现有成果,更致力于探索AGI的深层奥秘,推动技术边界向更广阔的未知领域拓展。这头鲸鱼从此进入了一片广袤蓝海,开始急速巡弋。

2023年12月,成立约半年的DeepSeek推出了首个大语言模型DeepSeek-V1,包含7B和67B两种规格。

该模型的训练数据体系独具匠心:团队构建了2万亿令牌的庞大语料库,通过了三级智能筛选机制——先剔除重复内容以保证多样性,再过滤低质信息以提升知识密度,最后重组优化数据结构。团队凭借这种数据锻造工艺为模型注入了优质知识燃料。

在技术架构方面,DeepSeek采用分层设计的巧思:7B模型设置30层神经网络,67B则扩展至95层,这种深度定制既保证了参数总量合理,又优化了计算资源分配。特别是在67B模型中引入分组注意力机制,使其较传统架构节省了30%的运算资源,并能实现流畅运行。

在性能表现方面,67B模型展现出惊人的实力:在代码生成和数学解题等复杂任务中,它不仅全面超越了Llama 2 70B,其对话模型更逼近GPT-3.5的水平。这种突破源于双重技术路线——基础模型通过海量预训练构建知识框架,对话模型再经过多轮人机交互微调,使AI既能理解专业领域内容,又能自然对话。

值得注意的是,DeepSeek团队在模型压缩方面取得了关键突破:通过动态参数激活技术,67B模型实际运行时仅需调用部分神经元,这样既保留了大模型的智慧容量,又大幅降低了运算能耗。这种“大而精巧”的设计理念,为大模型普惠化开辟了新路径。

随后,DeepSeek团队发布并开源了DeepSeek Coder系列模型。这一系列包含从1B至33B不同参数规模的版本,每个模型均基于2万亿令牌的混合数据训练,其中87%为多种编程语言代码、13%为中英文自然语言文本。该系列创新性地采用了16K超长上下文窗口设计,并引入了代码填空预训练任务,使其具备处理复杂项目级代码的能力,可智能完成跨文件代码补全和缺失代码段填充。

相较于传统代码模型,DeepSeek Coder在技术实现上进行了多项优化:通过海量高质量代码数据强化模型对编程逻辑的理解能力,支持Python、Java等主流语言的精准生成;在HumanEval 等权威测试中,其代码生成准确率显著高于同类开源模型,尤其在处理复杂算法和系统级开发任务时展现出了接近人类程序员的推理能力。开发者可直接调用不同版本、不同规模的模型,灵活适配从轻量级脚本编写到大型软件工程开发的多样化需求。

2024年2月,DeepSeek团队推出了DeepSeek Math-7B模型,它是基于DeepSeek Coder-v1.5-7B代码模型进行了参数初始化研发的数学大语言模型。该模型通过构建1200亿数学相关令牌的预训练语料库(包含数据集Common Crawl提取的数学网页数据及5000亿令牌自然语言与代码数据),结合创新的渐进式分层训练方法,显著提升了数学推理能力(见图3-2)。

图3-2 多个开源大模型在数学竞赛水平基准测试中的表现

图片来源:DeepSeek团队论文“DeepSeek Math: Pushing the Limits of Mathematical Reasoning in Open Language Models”。

在图3-2提到的这篇和模型一起发布的论文中,DeepSeek首次提出了后来闻名业界的群体相对策略优化(group relative policy optimization,GRPO),创造性地将深度学习应用于后训练阶段,并且改进了后训练流程。

DeepSeek MoE和DeepSeek Math是DeepSeek在预训练和后训练阶段最重要的创新的集中体现,也是DeepSeek路线图的起点。只可惜当时业界还忙于“百模大战”,对于这两个模型以及其相关论文中的重要探索缺乏关注。

2024年3月11日,DeepSeek团队发布了首款多模态大模型DeepSeek-VL。它通过对训练数据、模型架构和训练策略进行联合拓展,构建出最强开源多模态模型之一,它包含7B和1.3B两种规格。

DeepSeek-VL在不丢失语言能力的情况下融入多模态能力,能够针对绝大多数现实场景下的问题给出细致而有条理的回复。它能够接受高分辨率图片作为输入,分辨率高达1024×1024,从而可以识别图片中的细小物体。同时,它具备通用多模式理解能力,能够处理逻辑图、网页、公式识别、科学文献、自然图像,并能够在复杂场景中体现智能。

DeepSeek-VL在具备强大图文理解能力的同时,生成的回复也极具条理性。DeepSeek-VL的强大能力来自研究人员在数据、模型结构和训练策略这三大方面的综合考量。

DeepSeek第一个里程碑式的技术突破来自2024年1月推出的DeepSeek MoE模型,它是基于MoE架构研发的创新大语言模型(见图3-3)。该模型通过两项核心技术策略实现了效率突破:其一是细粒度专家分割(fine-grained expert segmentation)策略,即将传统专家模块拆解为更小规模的子专家单元,显著提升模型处理复杂任务的灵活性;其二是共享专家隔离(shared expert isolation)策略,即通过独立设置全局共享专家与动态路由专家,优化计算资源分配效率。

图3-3 各模型激活参数对比

图片来源:DeepSeek团队论文“DeepSeek MoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models”。

该模型基于2万亿令牌的中英文混合数据完成全量训练,在性能测试中展现出与DeepSeek MoE 16B和Llama 2 7B相当的水平,但仅需约40%的计算资源消耗。这种架构创新标志着DeepSeek技术路线正式向MoE方向转型,其核心价值在于通过专家网络动态激活机制,在保持模型性能的前提下大幅降低算力需求,为大规模语言模型的工程化落地提供了新的技术范式。

MoE为何如此神奇? FcSLxlnkhcKPEI85x1Cy5w274x6++M2lT6sHHb1rNR46mMl/YzdbyUceRd+jBnNo

点击中间区域
呼出菜单
上一章
目录
下一章
×