大模型实战：从零实现RAG与Agent系统最新章节_郑天民著

2.1.1　LlamaIndex的工作流程

在深入探讨LlamaIndex的功能特性和具体使用方法之前，我们先对其整体架构有一个宏观的认识。

作为一个RAG开发框架，LlamaIndex能够获取、构建和访问私有或特定领域的数据，通过自然语言处理建立了与多种数据源之间的桥梁。这些数据源可以是企业数据库、Excel等结构化数据，也可以来自搜索引擎、业务系统API（Application Programming Interface，应用程序接口）等半结构化数据，更多的是文本、邮件、PDF、PPT、视频、音频、图片等非结构化数据源。因此，从定位上讲，LlamaIndex也可以被视为一个专注于构建数据驱动应用程序的数据开发框架。图2-1展示了LlamaIndex的基本工作流程。

图2-1　LlamaIndex的基本工作流程

如图2-1所示，LlamaIndex的基本工作流程包括以下几个步骤。

（1）加载数据作为文档：将各种来源的数据加载到系统中，视为待处理的文档。

（2）解析为连贯节点：将文档解析成一系列连贯的节点，便于后续处理。

（3）构建优化索引：基于节点创建优化的索引结构，以支持高效的查询操作。

（4）检索相关节点：在索引上执行查询，以找到与用户请求最相关的节点。

（5）整合并返回响应：将检索到的信息整合成最终的响应，并返回给用户。

虽然这些步骤看似与其他数据应用程序相似，但LlamaIndex的独特之处在于它能够通过查询引擎与LLM进行交互。具体来说，LlamaIndex接收由检索器选定的节点，对其进行处理，并格式化为包含查询及节点上下文的提示词。该提示词随后通过查询引擎传递给LLM以生成响应。查询引擎负责对原始响应进行必要的处理，确保最终返回的是经过优化的自然语言答案。

通过对LlamaIndex工作流程的梳理，我们可以提取出以下构建RAG应用的关键技术组件。

● 文档（document）：原始数据的集合。

● 节点（node）：从文档中解析出的逻辑单元或片段。

● 索引（index）：根据应用场景组织节点的数据结构，以支持高效的检索操作。

● 查询引擎（query engine）：包含检索器、节点处理器和响应处理器，用于处理用户查询并生成最终响应。

理解这些技术组件对于有效使用LlamaIndex至关重要，它们使开发者能够以结构化的方式将外部数据与LLM连接起来。

现在，你已经掌握了LlamaIndex的基本工作流程，并熟悉了一组核心的技术组件。接下来，我们将通过构建一个实际示例来加深你对LlamaIndex的理解与应用。

2.1.1 LlamaIndex的工作流程

2.1.1　LlamaIndex的工作流程