购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第三节
DeepSeek加速AIGC深度变革

一、DeepSeek“崭露头角”

DeepSeek作为AIGC领域的“后起之秀”,正以其独特的技术优势和创新应用,在全球范围内掀起波澜,深刻影响着内容创作与社会生活的各个层面。

2025年春节前后,由杭州深度求索人工智能基础技术研究有限公司(以下简称“深度求索”)推出的推理式大语言模型DeepSeek-R1,以优秀的推理能力和“思考”方式,引爆了中国乃至全世界对于AI模型的又一次狂热。创立深度求索的并非传统意义上的计算机公司,而是知名量化资管巨头幻方量化,或许正是这种非传统的基因,给深度求索和它开发的DeepSeek带来了不同于其他AI模型的独特发展道路。从代码撰写模型起步,经由不同版本的大语言模型迭代,发展历程虽短,却效率极高,成绩斐然。幻方量化发布的一系列DeepSeek模型在技术性能和应用效果上都展现出强大的竞争力,终于在2025年年初,展现出超乎常人想象的“思考”能力的推理模型R1吸引了全球的目光,成为引领AIGC发展不可忽视的重要力量。

自2023年起,DeepSeek在开源社区里发布了大量的模型,其排名在Benchmark表上逐步攀升,其主要作品见表1-1。

表1-1 DeepSeek主要模型一览

续表

目前,DeepSeek的优势主要体现在以下几个方面:

生成能力优势。DeepSeek拥有卓越的语言理解与生成能力,基于Transformer架构的深度优化,使其能够精准捕捉文本中的语义细微差别,无论是日常对话的口语化表达,还是专业领域的复杂术语,它都能理解得细致入微。在内容生成方面,它可以根据给定的主题和要求,生成逻辑连贯、条理清晰的文本,无论是短文创作、长篇论文撰写,还是创意性的故事、诗歌创作,DeepSeek都能应对自如。例如,当被要求创作一篇关于未来城市交通发展趋势的文章时,它不仅能从多个角度深入剖析,如智能交通系统的应用、新能源汽车的普及等,还能融入相关研究数据和实际案例,使内容既丰富又具说服力。

深度思考与推理能力优势。与许多同类模型不同,DeepSeek的模型运用强化学习技术进行“后训练”,通过学习思维链(CoT)的方式,一步一步推理得出结果,而不是简单直接地预测答案。这种独特的思考方式使它在面对复杂问题时,能够深入分析问题的本质,给出更具逻辑性和深度的回答。例如,当被问及“如何解决城市拥堵与环境保护之间的矛盾”这一复杂问题时,DeepSeek会逐步分析两者之间的关联和相互影响因素,从政策制定、技术创新、公众意识等多个层面提出系统性的解决方案。

成本与效率优势。在AIGC领域,成本与效率是制约技术广泛应用的关键因素。DeepSeek在这方面实现了重大突破,其模型训练成本显著低于行业平均水平。以DeepSeek-V3为例,训练成本仅为557.6万美元,而GPT约为1亿美元。这种低成本高效率的模式,促使更多的企业和开发者使用其技术,降低了AIGC技术的应用门槛,为AIGC的普及和发展提供了有力支持。同时,DeepSeek在推理速度上也表现出色,能够快速响应用户的请求,提高了用户体验和工作效率。

多模态融合优势。与业界趋势同步,DeepSeek正在积极发展多模态融合方面的能力,其先后推出的Janus/Janus Pro以及VL/VL2系列多模态大模型能够将文本、图像、视频等多种信息进行有效整合与理解。利用大型混合专家视觉—语言模型(MoE)架构,DeepSeek具备了出色的视觉语义对话能力,不仅可以理解图像内容并进行描述,还能根据图像信息回答相关问题、生成创意内容等。例如,输入一张城市街景图片,DeepSeek可以识别出图片中的建筑、交通状况、人群活动等元素,并基于这些信息生成一篇描述城市生活场景的文章,或者回答诸如“该场景中可能存在哪些环境问题”等问题。

凭借上述显著优势,DeepSeek在AIGC领域迅速崛起,吸引了全球范围内的关注与应用。无论是在科技巨头的技术布局中,还是在普通用户的日常使用中,DeepSeek都已成为一个备受瞩目的存在,为AIGC技术的发展注入了新的活力。

二、DeepSeek重塑内容创作版图

在内容创作领域,DeepSeek的出现犹如一颗重磅炸弹,引发了一系列深刻变革,从根本上改变了内容创作的模式、流程和格局。它以强大的生成能力、高效的处理速度和创新的应用方式,为创作者们带来了前所未有的机遇与挑战,重塑了内容创作的版图。

在传统的内容创作流程中,诸如文章初稿撰写、海报模板设计等基础工作往往耗费创作者大量的时间和精力。DeepSeek的出现,极大地改变了这一现状。以文章写作为例,创作者只需输入主题、关键词和大致的内容要求,DeepSeek就能在短时间内生成一篇结构完整、逻辑连贯的文章初稿。在撰写一篇关于“人工智能在教育领域的应用”的文章时,创作者提供相关主题和要点后,DeepSeek迅速生成了包含引言、现状分析、应用案例、面临挑战及未来展望等部分的初稿,为创作者节省了大量的构思和起草时间。在海报设计方面,DeepSeek同样表现出色。它可以根据用户设定的主题、风格和元素要求,快速生成多个海报模板供用户选择。比如,某电商企业要为新品促销活动设计海报,只需将产品信息、促销口号、期望风格(如简约时尚、复古华丽等)告知DeepSeek,它便能在几分钟内生成一系列风格各异、布局合理的海报模板,设计师只需在此基础上进行微调,就能快速完成海报制作。

DeepSeek对创作流程的加速作用体现在多个环节。在文献检索环节,以往创作者需要花费大量时间在海量的学术数据库、网页资料中筛选有用信息,而DeepSeek凭借其强大的信息检索与分析能力,能够快速从众多数据源中精准定位相关文献,并进行智能摘要,大大缩短了文献收集和整理的时间。在大纲设计环节,它能根据创作者的主题和思路,迅速生成详细且逻辑清晰的大纲,为后续创作提供明确的框架。在段落润色环节,DeepSeek可以对创作者输入的段落进行语法检查、词汇替换、语句优化等操作,使段落表达更加流畅、准确和生动。例如,一位科研人员在撰写论文时,利用DeepSeek进行文献检索,仅用了几分钟就获取了数十篇相关领域的最新研究成果,并得到了每篇文献的核心观点摘要。在大纲设计环节,DeepSeek根据研究主题和重点,生成了包含研究背景、目的、方法、实验结果、讨论和结论等部分的详细大纲,让科研人员能够迅速展开论文创作。在论文初稿润色环节,DeepSeek指出了多处语法错误和表达不当之处,并给出了修改建议,使得论文质量得到显著提升,整个创作周期也大幅缩短。

DeepSeek具备强大的多任务并行处理能力,能够同时满足创作者在不同平台和场景下的多样化创作需求。在新媒体运营中,创作者需要同时为微信公众号、微博、抖音等多个平台创作内容,且每个平台的内容形式和风格要求各不相同。DeepSeek可以根据每个平台的特点和用户需求生成适配的内容:为微信公众号生成深度、专业的长文;为微博生成简洁、吸睛的短文案;为抖音生成生动、有趣的视频脚本。在广告营销领域,企业需要为不同渠道的广告投放准备不同形式的创意内容,如平面广告文案、视频广告脚本、社交媒体广告素材等。DeepSeek能够根据广告目标、受众定位和渠道特点,同时进行多任务创作,快速生成一系列广告创意方案,帮助企业提高广告投放的效率和效果。

在这样的背景下,DeepSeek打破了内容创作的专业壁垒,让没有专业背景的普通用户也能轻松参与到内容创作中来。在图片创作方面,即使是没有绘画基础的用户,只需在 DeepSeek中输入对图片的描述,如“阳光明媚的海边,有一座白色的灯塔”,它就能生成一幅惟妙惟肖的海边灯塔图片。在短视频制作领域,用户只需提供简单的故事梗概和场景要求,DeepSeek就能生成短视频脚本,并通过与视频编辑工具的集成,实现简单的视频剪辑和制作。一位旅游爱好者想要记录自己的旅行经历并制作成短视频分享到社交媒体上,他通过DeepSeek生成了旅行短视频的脚本,包括各个景点的拍摄画面、解说词和音乐推荐等,然后利用DeepSeek推荐的视频编辑工具,轻松完成了短视频的制作,让更多人能够欣赏他的旅行故事。传统的内容创作工具往往需要创作者具备一定的技术知识和操作技能,如专业的图像编辑软件需要掌握复杂的图层、滤镜、色彩调整等操作,视频编辑软件需要熟悉剪辑、转场、特效添加等功能,而DeepSeek通过集成化、智能化的设计,简化了创作工具的操作流程。

此外,DeepSeek还为新手创作者提供了丰富多样的创作模板和详细的引导,帮助他们快速上手,找到创作思路和方向。在写作领域,它提供了新闻报道、议论文、说明文、故事、诗歌等多种文体的模板,每个模板都包含了基本的结构框架和常用的表达方式。新手创作者在创作时,只需根据模板的提示,填充具体的内容,就能完成一篇较为规范的作品。在设计领域,DeepSeek提供了海报设计、名片设计、宣传册设计等多种设计模板,用户可以根据自己的需求选择合适的模板,并对模板中的元素进行个性化修改,如更换图片、调整文字内容和颜色等。根据用户输入的内容,DeepSeek能提供相关的创作建议和参考案例,引导创作者不断优化作品。例如,一位刚开始接触写作的学生,想要写一篇议论文,他可以使用 DeepSeek提供的议论文模板,按照模板中提出的论点、论据、论证的结构框架,结合 DeepSeek 推荐的相关案例和数据,就能顺利完成文章的创作,并且在DeepSeek的建议下,对文章的逻辑和表达进行优化,还能使文章质量得到显著提高。

DeepSeek还通过融合不同领域的知识,为创作者提供独特的视角和新颖的创意。它能够将科技与艺术、历史与现代、文学与商业等领域的知识进行结合,创造出全新的创意内容。在艺术创作中,DeepSeek可以将人工智能算法与绘画、音乐等艺术形式相结合,生成具有独特风格的艺术作品。它可以根据数学公式和算法生成绘画作品,或者根据音乐理论和情感分析生成个性化的音乐作品。在商业领域,DeepSeek可以将市场营销知识与历史文化元素相结合,为企业的品牌推广和产品营销提供独特的创意。例如,一家服装企业想要推出一款具有文化特色的服装产品,DeepSeek通过分析历史文化元素和时尚潮流趋势,为企业提供了将传统汉服元素与现代时尚设计相结合的创意方案,帮助企业打造出具有独特文化魅力和市场竞争力的服装产品。

在信息快速更新的时代,热点话题转瞬即逝。DeepSeek能够实时关注各大新闻媒体、社交媒体平台上的热点事件和话题,并为创作者提供与之相关的创作灵感和素材。当某个热门电影上映时,DeepSeek会迅速捕捉到这一热点,并为影评人、自媒体创作者提供关于电影的背景资料、导演风格、演员表现、观众反馈等素材,以及从不同角度撰写影评的思路和建议。创作者可以利用这些素材和灵感,快速创作与电影相关的优质内容,吸引更多读者关注。同样,当社交媒体上出现某个热门话题讨论时,DeepSeek能及时分析话题的热度趋势、用户观点和讨论焦点,为创作者提供参与话题讨论的创意和内容方向,帮助他们在第一时间发布有价值的内容,提升内容的传播效果和影响力。

三、DeepSeek全面融入社会生活

DeepSeek凭借其强大的联网搜索和深度思考能力,为学习者带来了知识获取方式的巨大变革。以往,学习者获取知识主要依赖于书籍、教师授课和有限的网络搜索,过程烦琐且效率低下。如今,借助DeepSeek,学习者只需输入简单的问题或关键词,就能在瞬间获取海量的知识信息。无论是对历史事件的详细解读、对科学原理的深入剖析,还是对文学作品的赏析评论,DeepSeek都能提供丰富而全面的内容。例如,在学习历史时,学生想了解“工业革命对世界格局的影响”,DeepSeek不仅能给出工业革命的起因、经过和结果,还能从经济、政治、文化等多个角度分析其对世界格局产生的深远影响,同时提供相关的历史文献、研究报告和专家观点,帮助学生全面深入地理解这一历史事件。

DeepSeek能为学习者提供大量知识,这种借助工具获取知识的方式与传统的通过学习思考获取知识的方式存在显著区别。通过学习思考获取知识,学习者需要主动探索、分析、归纳和总结,这个过程不仅能获取知识,还能锻炼思维能力、提升认知水平,所获得的知识也更深入、系统,能更好地融入自身的知识体系。借助DeepSeek获取知识,虽然便捷高效,但如果过度依赖,可能导致学习者缺乏独立思考和探索的能力,对知识的理解和掌握也相对浅显。因此,在享受DeepSeek带来的知识获取便利时,学习者仍需保持学习思考的习惯,将两者有机结合,才能不断完善自己的知识体系和认知能力。例如,在学习数学时,不能依赖DeepSeek给出的解题答案,而应通过自己的思考和推理去理解解题过程,这样才能真正掌握数学知识和解题技巧。

DeepSeek的出现推动了学习模式从传统的被动接受式向自主学习和高阶思维培养的方向转变。在传统教学模式中,学生主要是被动地接受教师传授的知识,缺乏自主探索和思考的机会。而现在,学生可以利用DeepSeek自主查询资料、解决问题,根据自己的学习进度和需求进行个性化学习。同时,DeepSeek还能引导学生进行高阶思维的训练,如批判性思维、创造性思维等。它可以提出开放性问题,引导学生从不同角度思考,鼓励学生质疑和挑战既有观点。然而,这种学习模式的转变也带来了一些挑战。对于一些自律性较差的学生来说,可能会出现自学困境,难以合理安排学习时间和内容。因此,教师的角色也需要相应转变,从知识的传授者转变为学习的引导者和组织者,这对教师的能力和素质提出了更高的要求。

在日常生活中,DeepSeek成了人们沟通的得力助手。当人们在社交软件上与他人交流时,如果一时不知如何回复,DeepSeek可以根据聊天内容和语境,提供合适的回复建议,帮助人们组织语言,更好地表达自己的想法。在撰写邮件时,DeepSeek能快速生成邮件的框架和内容,用户只需进行简单的修改和调整,就能轻松完成邮件的撰写,大大提高了沟通效率。比如,一位职场人士在回复客户的咨询邮件时,利用DeepSeek生成了包含问题解答、产品推荐和感谢语等内容的邮件初稿,然后根据客户的具体需求进行了个性化修改,在短时间内就完成了专业、得体的邮件回复。

DeepSeek还可以为人们提供全方位的生活规划建议,成为人们的“私人生活助手”。在职业规划方面,它可以根据个人的兴趣、技能和职业目标,分析当前的就业市场趋势,推荐适合的职业方向和发展路径。在健身计划制定上,DeepSeek能结合个人的身体状况、健身目标和时间安排,制定个性化的健身计划,包括运动项目、运动强度和饮食建议等。在旅行规划中,它可以根据用户的预算、时间和旅游偏好,推荐旅游目的地、景点和行程安排,还能预订机票、酒店等。例如,一位想要转行从事数据分析工作的人,通过与DeepSeek交流,得到了关于数据分析行业的发展前景、所需技能、学习路径和求职建议等详细信息,为自己的职业转型提供了有力的参考。

在娱乐领域,DeepSeek为人们带来了全新的体验。在音乐板块,用户可以向 DeepSeek描述自己想要的音乐风格、情感表达和节奏特点,它就能生成一段独特的音乐旋律,甚至可以根据用户的声音特点进行个性化定制。比如,一位音乐爱好者想要创作一首表达思念之情的歌曲,他向DeepSeek输入相关要求后,DeepSeek生成了一段优美的旋律和歌词,经过简单的调整和完善,这位爱好者就完成了自己的音乐创作,享受了独特的创作乐趣。在影视板块,DeepSeek可以根据用户的观影历史和喜好,推荐个性化的影视内容,让用户更容易发现符合自己口味的影视作品。

DeepSeek作为生成式人工智能领域的杰出代表,已在内容创作和社会生活的广袤版图上刻下了不可磨灭的印记。从助力创作者突破思维定式,实现效率与创意的双飞跃,到深度融入学习、工作、生活的各个场景,推动社会的智能化变革,DeepSeek的影响已经无处不在。

四、优秀的国产LLM系列:DeepSeek家族主要技术

路线解析 大语言模型(Large Language Model,LLM)是人工智能发展道路上目前最为红火的一个分支,也是成就最为卓著的一个分支,它属于语言模型(Language Model,LM),但在规模、架构、训练数据及可以实现的能力上均有所拓展。LM是目前AI世界里最接近自然人生活、能被自然人识别出“智能”特性的一个领域,它的发展目标在于实现以人工智能系统理解、处理和生成类似人类自然语言的“语言”。LM从人类生产过的、以自然语言形式存在的大型数据集里学习模式和结构,“学着”去“生产”连贯且上下文相关的文本。如今在运行的LLM一般具有十亿级以上的参数规模,所谓“完全体”或“满血”的模型,其参数规模甚至会达到千亿和万亿级,因英语中“Billion”(10亿)的首字母为B,实际应用中,描述某个LLM的规模通常会以“X-B”的方式称呼,如“满血版”DeepSeek-R1模型的参数规模是671B。这种巨大的规模带来的“涌现效应”使得LLM展现出不同于之前所有人工智能模型的处理能力,使其能在各种任务中表现出“智能”。

2017年,Transformer架构携自注意力机制(Self-Attention)之威并行化处理序列,突破了RNN的算力瓶颈,成了LLM的基石。自此一切旧的NLP模式被排挤出主流,人们从获得了“自注意力”的模型身上看到了通用LLM的希望。2018年,Google和OpenAI先后发布了BERT(Bidirectional Encoder)和GPT(Generative Pre-training Transformer)的第一个版本,前者通过掩码语言建模(MLM)在多项NLP任务中刷新纪录,后者作为首个生成式预训练模型,通过单向自回归预测验证了大规模无监督学习的潜力,更进一步确立了预训练—微调(Pre-training + Fine-tuning)范式。LLM的参数爆炸时代和参数军备竞争自此开始。随后迭代的版本参数从10亿暴增至超过5000亿,LLM开始展现逻辑推理、跨任务泛化与创造性生成能力。从规则到数据驱动,从专用到通用,从单模态到多模态,LLM终于让人类看见了通用人工智能的曙光,成为当下公认的最具希望的AI发展方向。

在DeepSeek携R1模型于2025年初爆火之前,世界范围内LLM的引导者是OpenAI公司的GPT系列。然而DeepSeek-R1的横空出世,使世界看到了AI领域的中国之光,在多个领域里取得优势,甚至“动摇”了如日中天的nVidia公司股价,更引来了大洋彼岸的重视与围剿。这份成功不是偶然的,是深度求索在2023—2025年间大量投入、自主研发、高速迭代结出的硕果。本小节就参照深度求索发布的从DeepSeek MoE到DeepSeek V2、DeepSeek V3和DeepSeek-R1的4篇论文所公开的技术细节,回顾DeepSeek系列模型的迭代历程,总结其技术特征和路线,作为本书的技术出发点。

DeepSeek系列模型从混合专家网络(Mixture-of-Experts,MoE)的基础架构出发,通过多阶段迭代逐步优化模型效率、推理能力与训练稳定性。其核心技术演进可划分为四个阶段:DeepSeek MoE、DeepSeek-V2、DeepSeek-V3与DeepSeek-R1,每个阶段均围绕稀疏计算、负载均衡、注意力机制优化及强化学习展开创新。

(一)DeepSeek MoE:稀疏专家网络的优化

DeepSeek MoE基于传统MoE架构,通过细粒度专家分割(Fine-Grained Expert Segmentation)与共享专家隔离(Shared Expert Isolation)两项策略,显著提升了专家网络的利用率与专业化能力。DeepSeek MoE将每个专家子网络进一步分割为更小的子专家,使模型实际包含的专家数量得到拓展,同时保持总参数量不变,增强了模型对复杂问题的分解能力。此外,DeepSeek MoE还从总专家中划分出一组共享专家,这些专家在训练与推理时始终被激活,专门用于存储跨任务的通用知识。非共享专家则通过门控动态选择,专注于领域特定任务,既实现了减少冗余参数,又提升了模型泛化性。

(二)DeepSeek V2:多头隐藏注意力机制

在DeepSeek V2版本中,多头隐藏注意力(Multi-head Latent Attention,MLA)被引入,实现了对推理时键值缓存(KV Cache)存储需求的降低,解决了生成长序列对话时所面临的内存瓶颈问题,MLA与MoE的结合进一步降低了计算成本。DeepSeek V2的稀疏架构仅激活约5.6%的参数(如总参数量6718亿,推理激活378亿),在保持模型性能的同时大幅提升吞吐量,这构成了DeepSeek系列极低成本的技术基石。

(三)DeepSeek V3:无辅助损失负载均衡与多词元预测

DeepSeek V3作为DeepSeek系列中最为成熟的文本式模型,以甚低成本提供了不亚于GPT-4和Claude-3水平的文本与代码生成能力,且更适合中文语境。在这个版本里,DeepSeek贡献了无辅助损失负载均衡和多词元预测两项重要创新。前者通过动态调整门控偏置取代辅助损失实现均衡,有效防止了对话路由崩塌;后者则以一次预测多个词元取代了传统LLM一次只预测一个词元的算法,使得每个训练样本会有更多的监督信号,提升了数据利用率,且利用词元间依赖关系增强了模型的一致性。

(四)DeepSeek-R1:强化学习驱动的推理优化

自从OpenAI公布o1-preview模型,LLM训练的关注点就已经转移到如何通过后训练提升模型的推理(reasoning)能力。DeepSeek-R1在推理能力方面体现出来的巨大优势,最终吸引了全世界的目光。传统LLM通常直接输出答案,容易因信息不足而犯错。DeepSeek-R1的核心突破在于其作为推理模型(Reasoning Model),通过显式展示多步思维过程(Chain-of-Thought,CoT)提升了准确性。

DeepSeek-R1极强的推理能力是借助多阶段训练框架,结合强化学习和指令微调而实现的,这一工作可被总结为如下流程:第一步,冷启动阶段,基于人工与规则生成的CoT数据指令微调,初始化模型推理能力;第二步,强化学习阶段,针对数学、编程等任务,使用规则奖励系统训练策略网络;第三步,扩展指令微调阶段,合成60万推理样本,结合通用任务数据二次微调;第四步,价值观对齐阶段,引入神经奖励模型,约束生成内容的有害性。DeepSeek-R1还创新性地采用了群体相对策略优化(Group Relative Policy Optimization,GRPO),对同一个问题产生多个采样输出,以其平均值作为基线,取代额外的价值函数模型基数,舍弃了价值模型,取消了评论网络,以规则系统打分代表了神经奖励模型,提高了训练效率。

DeepSeek家族不仅刷新了推理模型的性能上限,更揭示了AGI发展的一条可行路径,即以算法创新突破算力瓶颈,以开放生态加速技术落地。其成功主要来自三方面的创新:第一,纯强化学习路径:通过简单激励自主生成高质量推理链,突破传统 CoT 依赖人工模板的局限;第二,底层架构创新:MoE、FP8、MLA 等技术实现高效训练与推理,弥补硬件资源限制;第三,开源与产品化:以技术民主化推动行业进步,证明中国团队在AI前沿领域的顶尖实力。针对LLM进一步提升性能所面对的算力、数据乃至能源的竭泽而渔困境,DeepSeek凭借在轻量化与高效率方面的独门绝技交出了一份令世人刮目相看的答卷,为世界AI领域贡献了重要的中国经验。 qe/EEHPPlNnFhtro2ylrqjpu8MvtPirypGI4W8B4ELIGyxUoOzPcmfjhAjtK8qhB

点击中间区域
呼出菜单
上一章
目录
下一章
×