操作篇

■ 第4章应用环境搭建

■ 第5章大语言模型安装

■ 第6章大语言模型微调

■ 第7章大语言模型量化

■ 第8章多模态模型应用

大语言模型应用是实践性非常强的领域，从最基础的推理卡驱动安装，到各种组件部署，再到大语言模型的安装、微调、量化、开发等，几乎每一步都需要经历大量实际操作才能熟练掌握。

本书探讨的所有大模型都是基于Transformer架构的。在通过Transformers库操作时，虽然操作上具有一定的相似性，但在不同操作系统、不同推理卡、不同版本CUDA的条件下也存在差异，甚至微小的组件版本变化都可能导致复杂难解的技术问题。因此，提供一系列详尽且经过验证的实践过程讲解就变得格外重要。

本篇精选了一些具有代表性的模型和高频应用场景，进行了深入的阐述。读者一方面可以依照书中的步骤进行实操，另一方面通过理解这些案例中的原理和方法，将所学知识应用到同类模型的操作中，触类旁通。

本篇分为5章，主要讲解大模型的实操环节，包括应用环境的搭建，多种大模型的部署、微调与量化，囊括了大模型的常用操作。

❍ 第4章详细介绍大语言模型依赖的服务器、操作系统的配置要求以及推理卡的安装过程，以及在硬件条件具备的情况下，如何在多种操作系统上安装推理卡驱动、CUDA、Anaconda、PyTorch、Nginx以及Git等组件。

❍ 第5章详细描述ChatGLM、Qwen、LLaMA2、Gemma、Whisper等模型的部署过程。虽然这些模型都使用Transformers库进行操作，但有一些区别。在介绍过程中尽量采用简短的Python程序验证安装是否成功，以让读者尽早进入开发状态。

❍ 第6章讲解如何进行大语言模型微调。相对于部署，微调的操作步骤较多，涉及语料整理、模型微调、模型合并等具体操作，还涉及P-Tuning、LoRA等微调方案的选择和微调参数的设定。

❍ 第7章讲解在缺少GPU的低算力条件下，即在Windows与CPU算力下，如何部署大语言模型推理应用，涉及llama.cpp和gemma.cpp两种量化方案。

❍ 第8章介绍图像模型Stable Diffusion的安装与使用。读者可以了解如何实现文生图、图生图的多模态应用，为数字人应用的开发储备图像模型技术基础。