大模型实战：从零实现RAG与Agent系统最新章节_郑天民著

关于RAG，我们需要明确几个基本概念：它的基本模型是什么，它具有哪些价值，以及它的组成结构和应用场景。以下是对这些概念的概述。

我们可以从RAG的字面意思对其背后的概念做进一步解析。所谓的检索增强生成，指的就是一种融合了检索（retrieval）和生成（generation）的自然语言处理方法，旨在提升LLM在特定任务上的表现。图1-1展示了RAG的基本模型。

图1-1　RAG的基本模型

在RAG中，首先利用检索系统从文档集合中找到与用户查询相关的资料或信息，这通常依赖于一个能快速找到相关文档的索引机制。随后，将检索到的相关资料作为上下文输入LLM的生成模型，该模型则基于这些上下文生成回复或完成任务。

RAG是自然语言处理领域的一个热门研究方向，许多研究者和开发者正在探索其在不同应用场景中的潜力。RAG具备以下优势。

● 减少LLM幻觉。RAG能够通过提供准确、基于事实的外部知识来源，减少LLM生成不实或误导信息的可能性。

● 突破上下文长度限制。借助RAG，LLM可以克服自身上下文长度的限制，通过分块和向量化处理，实现更高效的信息检索和处理。

● 获取最新知识。由于LLM存在知识更新的截止日期，RAG允许从外部资源检索最新相关信息，确保模型响应的时效性和准确性。

● 提高可追溯性：使用RAG时，聊天内容的来源更加透明，有助于用户验证生成的内容，并优化LLM的表现。

在提升LLM应用性能和用户体验方面，业界主要采用两种方法——微调（fine-tuning）和RAG。微调涉及使用特定数据集对LLM进行额外训练，以优化其在特定任务或领域中的表现。这种方法通常用于使模型专业化且能够改善其在特定上下文中的准确性。以下是对这两种方法的对比。

● 减少幻觉：RAG通过引入外部数据源来减少LLM的幻觉问题，确保响应基于事实；微调则依赖特定领域的数据训练来降低幻觉风险，但面对未知输入时仍可能出现幻觉。

● 知识获取：RAG能够高效访问包括文档、数据库乃至多媒体信息（如图片、语音和视频等）在内的各种外部资源；而微调利用预训练模型中固有的知识，不适合处理需要频繁更新的数据。

● 知识时效：RAG支持实时检索最新知识，非常适合动态环境，无须重新训练模型；而微调后的模型包含静态知识，更新知识需要重新训练。

● 模型定制：RAG专注于信息检索和整合外部知识，可能限制了模型行为或文本生成风格的定制化；而微调允许根据特定需求调整LLM的行为、文本生成风格，例如，完成基于自然语言输入转化为SQL查询语句的任务。

● 可解释性：RAG提供的上下文可以直接追溯到数据源，增加了模型输出的透明度和用户信任；而微调更像是一个黑盒，降低了模型决策的可解释性和用户信任。

● 计算资源：RAG需要支持检索策略和技术的计算资源以及实时更新的知识库；而微调需要准备高质量的训练数据，并且计算成本和时间开销较大。

● 延迟要求：RAG执行前需要预处理和向量化知识库数据，存在一定的延迟；而微调后的模型由于知识已固化在参数中，响应速度较快。

选择哪种方法取决于具体的应用场景。对于定制化要求高且知识相对稳定的情况，微调可能是更好的选择；而对于需要实时更新的知识库，RAG更合适。在某些情况下，结合两者可以提供最佳性能，同时满足灵活性和定制需求。

通常，微调耗费的计算资源和时间较多。而RAG通过检索外部数据源避免了LLM的再训练，降低了计算成本，提高了效率和灵活性。因此，在考虑实施部署的成本效益时，建议优先尝试RAG，若LLM的表现未达预期，则可考虑结合两种方法。

既然RAG这么有用，那么，它又是怎么组成的呢？我们继续往下看。