购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.2 为什么需要RAG

1.2.1 大模型的知识更新问题

前文提到大模型的知识源于预训练阶段。通过大量的无监督数据,利用下一个词预测任务来完成训练。待训练完成之后,模型便能将大量的知识压缩到自身的参数中。然而,在互联网时代,知识更新迅速,导致大模型难以实时更新所蕴含的知识。

由于存在知识更新问题,当询问模型一些训练语料截止日期之后的问题时,模型很可能会给出过时的答案。如图1-3所示,当询问GPT-3.5-turbo(0315)“拼多多的CEO是谁?”时,它回答:“拼多多的CEO是黄峥。”然而,实际上早在2020年7月,黄峥就已公开表示卸任拼多多的CEO。

同样的问题,我们可以咨询Bing Chat。Bing Chat是微软发布的一个针对浏览器的CoPilot。整体上,这个CoPilot是一个典型的RAG落地应用。当浏览器获取到用户咨询的问题之后,会借助自己的搜索引擎搜索出问题相关的网页,最后结合网页的内容以及用户问题进行答案生成。如图1-4所示,当向Bing Chat询问“拼多多的CEO是谁?”时,我们得到了正确的答案。

图1-3 GPT-3.5-turbo(0315)回答结果

图1-4 Bing Chat回答结果

1.2.2 大模型生成结果的不可解释性问题

深度模型由于其内部结构非常复杂,导致人们难以理解模型对输入做出的决策。然而,模型的解释性在很多方面都非常重要,因为它可以让开发人员理解模型是如何进行预测的,从而对模型产生的结果更有信心。此外,解释性还能帮助开发人员找到可以改进的方面,从而对模型进行更好的调整。在大模型领域中,模型基本都基于Transformer的解码器结构,因此大模型的生成结果仍然存在不可解释性问题。

然而,在使用RAG系统之后,我们可以从图1-4的Bing Chat回答中看出,它不仅给出了答案,还告诉了我们每个答案的来源。如果对答案不确定,还可以单击提供的溯源网页进行查看,这也是RAG系统的一大优点。因此,相较于纯粹的大模型生成,RAG具有更强的可解释性。

1.2.3 大模型的数据泄露问题

早在2020年,谷歌的科学家就进行了一项关于从大模型中挖掘隐私问题的研究——“Extracting Training Data from Large Language Models”。在这项研究中,他们以GPT-2为例探讨了如何通过数据提取攻击大模型,获取电话、身份信息、电子邮件地址等敏感数据。如图1-5所示,通过一定的查询引导,可以让模型泄露出训练数据中的敏感信息。

图1-5 通过提示词诱导GPT-2输出隐私信息

然而,在使用RAG系统之后,由于模型组织答案所用到的知识来源于预先提供的知识库信息,利用个人私有数据不仅可以使模型的答案更具个性化,还能让整个系统变得更加安全,降低被诱导输出敏感信息的风险。

1.2.4 大模型的训练成本问题

近几年,模型的规模不断攀升。BERT-Base仅有1亿参数量,而如今已出现千亿、万亿级别的大模型,如图1-6所示。

图1-6 知名大模型的参数量

庞大的参数量意味着需要更多的训练资源。同时,考虑到训练时长,一个大模型的训练成本极为昂贵。早在2021年,便有科学家在论文“RETRO:Improving Language Models by Retrieving from Trillions of Tokens”中通过大量实验证明,可以使用仅1/25参数量的模型结合RAG系统,在Pile数据集上达到GPT-3的效果。 1CTwvJ06C3hivwPtu2lYhNvu8jhU3qCGVwP15DhvOqpovx4wc2ZEeyqSdkx9gCIG

点击中间区域
呼出菜单
上一章
目录
下一章
×