大模型RAG实战：RAG原理、应用与系统构建最新章节_汪鹏著

1.2 为什么需要RAG

1.2.1 大模型的知识更新问题

前文提到大模型的知识源于预训练阶段。通过大量的无监督数据，利用下一个词预测任务来完成训练。待训练完成之后，模型便能将大量的知识压缩到自身的参数中。然而，在互联网时代，知识更新迅速，导致大模型难以实时更新所蕴含的知识。

由于存在知识更新问题，当询问模型一些训练语料截止日期之后的问题时，模型很可能会给出过时的答案。如图1-3所示，当询问GPT-3.5-turbo（0315）“拼多多的CEO是谁？”时，它回答：“拼多多的CEO是黄峥。”然而，实际上早在2020年7月，黄峥就已公开表示卸任拼多多的CEO。

同样的问题，我们可以咨询Bing Chat。Bing Chat是微软发布的一个针对浏览器的CoPilot。整体上，这个CoPilot是一个典型的RAG落地应用。当浏览器获取到用户咨询的问题之后，会借助自己的搜索引擎搜索出问题相关的网页，最后结合网页的内容以及用户问题进行答案生成。如图1-4所示，当向Bing Chat询问“拼多多的CEO是谁？”时，我们得到了正确的答案。

图1-3 GPT-3.5-turbo（0315）回答结果

图1-4 Bing Chat回答结果

1.2.2 大模型生成结果的不可解释性问题

深度模型由于其内部结构非常复杂，导致人们难以理解模型对输入做出的决策。然而，模型的解释性在很多方面都非常重要，因为它可以让开发人员理解模型是如何进行预测的，从而对模型产生的结果更有信心。此外，解释性还能帮助开发人员找到可以改进的方面，从而对模型进行更好的调整。在大模型领域中，模型基本都基于Transformer的解码器结构，因此大模型的生成结果仍然存在不可解释性问题。

然而，在使用RAG系统之后，我们可以从图1-4的Bing Chat回答中看出，它不仅给出了答案，还告诉了我们每个答案的来源。如果对答案不确定，还可以单击提供的溯源网页进行查看，这也是RAG系统的一大优点。因此，相较于纯粹的大模型生成，RAG具有更强的可解释性。

1.2.3 大模型的数据泄露问题

早在2020年，谷歌的科学家就进行了一项关于从大模型中挖掘隐私问题的研究——“Extracting Training Data from Large Language Models”。在这项研究中，他们以GPT-2为例探讨了如何通过数据提取攻击大模型，获取电话、身份信息、电子邮件地址等敏感数据。如图1-5所示，通过一定的查询引导，可以让模型泄露出训练数据中的敏感信息。

图1-5 通过提示词诱导GPT-2输出隐私信息

然而，在使用RAG系统之后，由于模型组织答案所用到的知识来源于预先提供的知识库信息，利用个人私有数据不仅可以使模型的答案更具个性化，还能让整个系统变得更加安全，降低被诱导输出敏感信息的风险。

1.2.4 大模型的训练成本问题

近几年，模型的规模不断攀升。BERT-Base仅有1亿参数量，而如今已出现千亿、万亿级别的大模型，如图1-6所示。

图1-6 知名大模型的参数量

庞大的参数量意味着需要更多的训练资源。同时，考虑到训练时长，一个大模型的训练成本极为昂贵。早在2021年，便有科学家在论文“RETRO：Improving Language Models by Retrieving from Trillions of Tokens”中通过大量实验证明，可以使用仅1/25参数量的模型结合RAG系统，在Pile数据集上达到GPT-3的效果。