购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

前言

在人工智能迅猛发展的浪潮中,大规模神经网络模型凭借其卓越性能,已然成为自然语言处理、计算机视觉等诸多领域的核心竞争力。然而,大模型复杂度与资源需求的急剧膨胀,让如何在确保精度的同时,大幅削减计算成本、提升部署效率,成为了产业界与学术界共同瞩目的焦点。

本书的创作灵感,正是源自业界对于大模型轻量化愈发迫切的需求。近年来,Transformer和Mixture of Experts(MoE)等前沿架构引领了深度学习的革新潮流,但也带来了对计算资源的巨额消耗。在此背景下,模型压缩技术如量化、剪枝和蒸馏应运而生,为破解资源瓶颈提供了有力武器,而工程优化策略则进一步夯实了其实践基础。本书紧紧围绕这一主题,全面探讨大模型轻量化技术,包括模型压缩、训练与推理加速、端侧学习与计算引擎优化,结合实际案例与工程实现,助力提升大模型的部署效率与计算性能。

本书共分为3部分:

第1部分(第1~5章),主要阐述了大模型轻量化的基本理论。第1章概述了大模型的兴起背景与技术挑战,以Transformer与MoE架构为例,分析其在性能与计算复杂度上的权衡。第2~5章从理论和实践出发,探讨模型压缩的多种技术路径,通过实际案例说明其在提升效率与降低存储需求方面的具体应用。为帮助读者深入理解,书中附有精心设计的代码示例和测试数据,验证模型轻量化的实际效果。

第2部分(第6、7章),基于第1部分的理论沉淀,深入拓展模型轻量化理论,并以代码实践加以诠释。在第6章介绍了端侧学习、计算引擎优化和资源分配等领域的关键技术。端侧学习章节特别关注联邦学习及其在隐私保护中的应用;计算引擎优化部分则涵盖动态Batch和多副本并行调度等核心技术,解析其在实际部署中的工程难点。第7章则重点介绍高性能算子库,为后续算子开发做好准备。

第3部分(第8~10章),重点介绍高性能算子库及手工算子的开发,分别以cuDNN、CUDA、Vulkan等为代表,从理论基础到实际实现层层深入,阐明算子优化的工程细节。算子的优化在大规模训练和推理任务中具有决定性作用。最后,以国产开源力作DeepSeek-V3模型为例,完整呈现从模型训练至推理的轻量化全过程。

本书适合从事大模型开发与优化的工程师和研究人员,尤其是对模型压缩、计算引擎优化和高效部署有需求的读者,旨在为他们提供深入的理论分析与实用的技术实现,帮助其应对大模型应用中的计算瓶颈和资源挑战。

在本书的撰写征程中,承蒙众多同行、专家以及学者的慷慨相助与鼎力扶持,在此向每一位提供宝贵意见与鼓励的朋友致以最崇高的敬意与诚挚的感激。同时,对参与本书内容研讨与案例验证工作的工程师和团队表示由衷的感谢。是他们的不懈努力与智慧交融,使本书实现了理论精华与实践智慧的完美融合,搭建起一座通向大模型轻量化核心技术深处的坚实桥梁。

期望本书能够为广大读者提供有价值的知识与实践指导,帮助大家在大模型领域取得更大的进展。无论您是冲锋在大模型开发一线的工程师,还是深耕于学术研究领域的学者,都希望本书能够成为您成长与突破的得力助手,助您在AI技术的快速发展中不断探索与创新。

本书提供配套源码,读者用微信扫描下面的二维码即可获取。

如果读者在学习本书的过程中遇到问题,可以发送邮件至booksaga@126.com,邮件主题为“大模型轻量化:模型压缩与训练加速”。

著者
2025年1月 NOFyp63lgiT3pyKxKPjdrC3kVb2M+/pZ/tQXhvmXFaQFpoV746zI/aRSbJkkmCid

点击中间区域
呼出菜单
上一章
目录
下一章
×