



这一次的大模型浪潮可谓汹涌澎湃,业界一致认为它将成为自互联网时代以来最大的一次生产力变革。ChatGPT发布已两年多,大模型在业务场景的落地并不尽如人意,出现了很多看衰大模型前景的声音。事实上,历史上任何一项革命性技术都经历过类似的阶段,大模型也不例外。不同于以往的任何一项技术,大模型是非常令人惊艳的,它在人类历史上第一次展示出人工智能(AI)可以理解人类语言。大模型首先以聊天机器人ChatGPT的产品形态展示了能力,任何人都可以通过跟它对话来测试它的能力。因此,任何人都可以参与讨论大模型的能力。然而,实际上大多数非专业人士对大模型背后的技术却并不了解,尤其不了解大模型技术的局限性。因此,在初期,大众很容易对大模型抱有过高的期望。随着时间的流逝,当人们的新鲜感过去,大模型在聊天中暴露出越来越多的问题,特别是幻觉问题,大模型被人们普遍认为是AI的又一个巨大的泡沫。
作为一个在互联网一线长期深耕的技术人员,我对大模型技术一直是持短期谨慎、长期坚信的态度。因此,在2023年年初,我毫不犹豫地全力投入大模型领域,当时我有幸作为主要负责人参与打造医疗大模型。今年,我又有机会在智能汽车领域参与AI智能体的开发。在这个过程中,我得到了不少教训,也快速积累了一些一手经验。鉴于大模型的变革性前景,我认为未来几年我国将需要大量的大模型人才。目前市面上缺乏一本既重视实践又不忽视理论的技术图书。因此,从2023年9月起,我就有意地对自己的经验加以总结,通过实际案例帮助读者快速学会如何打造一款支持多轮对话的行业智能助手,进一步从实践出发,揭示关键技术背后的原理,从而让读者有能力持续改进实践效果。希望本书能够帮助那些有志于从事大模型工作的应届毕业生以及想从其他方向(特别是搜索、自然语言处理方向)转向大模型方向的从业人员,快速掌握大模型技术。不过,由于工作繁忙,我写了几个月以后中断了一段时间。在此期间,大模型技术,包括多模态大模型(GPT-4o)、AI智能体、文生视频(Sora)等,又有了很多新的进展,我也将这些进展包含到本书里。当我完成本书的写作时,OpenAI发布了o1大模型。强化学习作为最近20年人工智能领域与深度学习几乎同等重要的技术,在o1大模型中发挥了主要的作用,将大模型的能力提升带入新的方向。实际上我一直在期待这一突破的到来。只是限于时间和精力,暂未将这一新技术的内容纳入本书。此外,增强大模型对物理世界的感知和理解也是我非常看好的一个未来方向,希望以后能够有机会跟大家分享相关的技术。
如图1所示,本书内容分为4部分:大模型导论、理论知识、实践、高级主题。
第1部分为大模型导论,包括第1章,介绍大模型的相关概念以及大模型的过去、现在与未来。
图1 本书的内容结构
第2部分为理论知识,包括第2、3章,介绍大模型基础知识和大语言模型分布式训练。
第3部分为实践,包括第4~7章,介绍大模型的继续预训练、对齐、推理与部署,通过实际案例详细介绍如何打造行业智能助手并将其部署到生产环境中。
第4部分为高级主题,包括第8、9章,介绍多模态大模型、AI智能体的最新进展。
感谢我的家人。在我写作期间,妻子承担了几乎所有的家务与照看孩子的事情。女儿经常好奇地询问我的写作进度。家人的支持与理解使我能够安下心来,顺利完成本书的写作。
感谢我的导师将我引荐给清华大学出版社。
限于作者的水平,书中不足之处在所难免,敬请专家与读者批评指正。
作者
2025年2月