大模型应用开发动手做AI Agent最新章节_黄佳著

1.3　Agent的大脑：大模型的通用推理能力

小雪：那么，咖哥，我想很多人都有这样两个疑问。

为何在大模型崛起之后，Agent无论从概念还是在技术落地层面都有了飞跃式发展？

到目前为止，尽管我们尚未看到任何成熟的、突破性的商业应用新模式是由Agent来驱动的，但无论是研究人员、创业者还是投资人，都如此笃定Agent落地是迟早的事，怎么解释这种现象呢？

1.3.1　人类的大脑了不起

咖哥：先回答第一个问题。为何我们的大脑（见图1.7）能展现出非凡的智慧——在解决复杂问题、创新思维以及学习适应的能力上远超其他生物？

图1.7　人类的大脑及神经元（图片来源：Pixabay网站）

答案在于大脑的复杂性和灵活性。大脑由数以十亿计的神经元构成，这些神经元通过复杂的网络相互连接。这一庞大的网络结构让大脑具有处理和存储大量信息的能力。同时，大脑拥有惊人的可塑性，能够根据经验和学习调整其结构和功能，这是适应性和学习能力的基础。

此外，大脑的各个区域专门负责处理不同类型的信息，如视觉、听觉、情感和逻辑推理等。这种分工协作让人类能够进行高级的认知活动，例如解决问题、创造艺术、理解复杂的社会互动等。大脑的这些功能为人类提供了理解世界和做出反应的能力，进而能够驱动Agent进行各种复杂的任务和活动。

1.3.2　大模型出现之前的Agent

在深度神经网络和大模型出现之前，没有任何一种技术能够赋予Agent一个复杂程度可以与人类大脑相匹敌的“智脑”。而大模型直接改变了人们对Agent的看法和期待。这些大模型不仅仅是语言处理工具，它们也是对人类智能的一种深层模仿和扩展，提供了前所未有的能力，为Agent的发展打开了新天地。

在大模型出现之前，已经出现了符号Agent、反应型Agent、基于强化学习的Agent与具有迁移学习和元学习能力的Agent等 ^[1] 。下面分别介绍。

■ 符号Agent。在人工智能研究的早期阶段，占主导地位的方法是符号人工智能，这种方法采用逻辑规则和符号表示来封装知识并促进推理过程。这些Agent拥有显式和可解释的推理框架，基于符号性质，它们展现出高度的表达能力。使用这种方法的经典例子是基于知识库构建的专家系统。然而，众所周知，虽然符号Agent的表达能力非常强，但无法解决超出它的知识库记录的任何问题。因此，它们在处理不确定性和大规模现实世界问题时有局限，而且当知识库增加时，它们对计算资源的消耗也会增加。

■ 反应型Agent。与符号Agent不同，反应型Agent不使用复杂的符号推理框架，也不因其符号性质而表现出高度的表达能力。相反，它们主要侧重于Agent与环境之间的互动，强调快速和实时响应。这些Agent主要基于感知-动作循环，高效地感知环境，并做出反应。然而，反应型Agent也存在局限性。它们通常需要较少的计算资源，能够更快地响应，但缺乏复杂的高级决策制定和规划的能力。

■ 基于强化学习的Agent。随着计算能力和数据可用性的提高，以及对Agent与其环境之间相互作用模拟的兴趣日益高涨，研究人员开始利用强化学习方法训练Agent，以解决更具挑战性和复杂性的任务。强化学习领域的主要问题是如何使Agent通过与环境的互动来学习，使它们能够实现特定任务中的最大累积回报。早期基于强化学习的Agent主要基于策略搜索和价值函数优化等基本技术，如Q-Learning和SARSA。随着深度学习的崛起，深度神经网络与强化学习的结合，即深度强化学习，使Agent能够从高维输入中学习复杂策略。这使得我们看到像AlphaGo这样的重大成就。这种方法的优势在于它能够使Agent自主地在未知环境中学习，无须显式人为干预，这为其在游戏、机器人控制等领域中的广泛应用提供了可能。尽管如此，在复杂的现实世界中，强化学习仍面临训练时间长、样本效率低和稳定性差等诸多挑战。

■ 具有迁移学习和元学习能力的Agent。为了解决基于强化学习的Agent在新任务上的学习要求大量的样本和长时间的训练，并且缺乏泛化能力的问题，研究人员引入迁移学习来减轻新任务训练的负担，促进跨不同任务的知识共享和迁移，从而提高学习效率和泛化能力。元学习专注学习如何学习，能够迅速推断出针对新任务的最优策略。这样的Agent在面对新任务时，能够迅速调整学习策略，利用已获得的一般知识和策略，因而能够减少对大量样本的依赖。然而，显著的样本差异可能会削弱迁移学习的效果。此外，大量的预训练和对大样本量的需求可能使得元学习难以建立一个通用的学习策略。

所以，尽管AI研究人员一直在努力尝试，也的确取得了很大突破（AlphaGo战胜世界围棋冠军），但是没有大模型指挥的Agent无法在较为通用的应用领域发挥真正的作用，例如，无障碍地和人交流，或者根据清晰的人类指令在较复杂的情景中完成一个哪怕较为简单的任务——上一代的Agent无法做到这些事情。

1.3.3　大模型就是Agent的大脑

大模型（或称大语言模型、大型语言模型，Large Language Model，LLM）的出现（见图1.8）标志着自主Agent的一大飞跃。大模型因令人印象深刻的通用推理能力而得到人们的大量关注。研究人员很快就意识到，这些大模型不仅仅是数据处理或自然语言处理领域的传统工具，它们更是推动Agent从静态执行者向动态决策者转变的关键。

图1.8　大模型如雨后春笋般出现 ^[2]

研究人员马上开始利用这些大模型来构造Agent的大脑（即核心控制器）。基于大模型的Agent通过将大模型作为主要组件来扩展感知和行动空间，并通过策略如多模态感知和工具使用来制订具体的行动计划。

这些基于大模型的Agent通过反馈学习和执行新的动作，借助庞大的参数以及大规模的语料库进行预训练，从而得到世界知识（World Knowledge）。同时，研究人员通过思维链（Chain of Thought，CoT）、ReAct（Reasoning and Acting，推理并行动）和问题分解（Problem Decomposition）等逻辑框架，引导Agent展现出与符号Agent相媲美的推理和规划能力。这些Agent还能够通过与环境的互动，从反馈中学习并执行新的动作，获得交互能力。

咖哥发言

上述逻辑框架对Agent的设计非常重要，这里简要介绍其来源，后面还会详细剖析。

■ 思维链 : Wei等人在2022年的论文“Chain of Thought Prompting Elicits Reasoning in Large Language Models”（《思维链提示引发大模型的推理能力》） ^[3] 中提出思维链提示方法，通过引导大模型进行逐步推理，使其在解决复杂问题时表现出更强的推理能力。

■ ReAct : Yao等人在2022年的论文“ReAct: Synergizing Reasoning and Acting in Language Models”（《ReAct：在语言模型中协同推理与行动》） ^[4] 中介绍了ReAct框架。该框架可以将推理和行动相结合，使语言模型能够根据推理结果采取适当的行动，从而更有效地完成任务。

■ 问题分解: Khot等人在2022年的论文“Decomposed Prompting: A Modular Approach for Solving Complex Tasks”（《分析提示：一种求解复杂任务的模块化方法》） ^[5] 中提出问题分解提示方法。这种方法先将复杂问题分解为多个子问题，然后逐步求解，最后整合结果。这种方法可以帮助语言模型更好地处理复杂任务。

同时，预训练大模型具备少样本和零样本泛化的能力，在无须更新参数的情况下，可以在任务之间无缝转换。因此，基于大模型的Agent已开始被应用于现实世界的各种场景。

此外，基于具有自然语言理解和生成能力，大模型可以无缝交互，促进多个Agent之间的协作和竞争。研究表明，多个Agent在同一环境中共存并进行交互，可以促进复杂社会现象的形成（见图1.9），例如由斯坦福大学的研究团队推出的Agent自主构建的虚拟社会“西部世界小镇” ^[6] 。

尽管大模型本质上是一种基于条件概率的数学模型，它们只是根据预设的情境和上下文来生成内容，以此模拟人类的语言和心理状态。但是，由于大模型能够通过在上下文预测的过程中生成内容，产生与人类语言相似的语句，创建基于特定上下文的与人类相似的表达方式，因此它们能够与智能Agent的目的性行为相适应，成为Agent的逻辑引擎。

图1.9　Agent形成的虚拟社会

1.3.4　期望顶峰和失望低谷

咖哥：基于前面的分析，我接着回答你的问题——为什么大模型出现之后，即使成功落地的产品仍未出现，但人们对Agent真正智能化乃至走入千家万户的信心有了如此大的提升呢？

人类的媒体和社会对人工智能的期待和失落久已有之，此起彼伏。从最初的兴奋和乐观到对其局限性的认识和失望，AI领域经历了多次低谷。这种现象通常被称为“AI冬天”，指的是AI发展热潮之后出现的停滞期。这些周期性的高峰与低谷反映了人类对技术潜能的期望与现实之间的差距。每一种AI技术的突破都带来了新的希望和挑战，但同时也伴随着对技术的过度炒作和现实能力的误解。这种循环式的期望与失望体现了人们对AI这种颠覆性技术的复杂情感和不断变化的态度。

关于这一主题，高德纳（Gartner）公司会定期发布“AI技术成熟度曲线”图。它展示了AI技术的发展周期和公众期望之间的关系。这种周期性的模型旨在展示新技术的市场接纳和成熟度，以帮助企业、投资者和技术开发者理解与预测技术趋势及其对市场的影响。

这条“AI技术成熟度曲线”也被称为“AI技术炒作周期”。在图1.10所示的2023年的AI技术成熟度曲线图中，从左至右，技术成熟度曲线分为如下几个阶段。

■ 创新触发点（Innovation Trigger）：也称技术萌芽期，在这一阶段，新技术出现，相应的期望开始上升，公众对新技术的潜力产生兴趣。（我称这个阶段为“希望之春”。）

■ 期望顶峰（Peak of Inflated Expectations）：也称期望膨胀期，在这一阶段，技术引起大量媒体关注，公众的期望达到顶峰，但这往往与技术的实际能力不符。

■ 失望低谷（Trough of Disillusionment）：也称泡沫破裂低谷期，在这一阶段，技术未能满足公众过高的期望，导致公众对其的关注和兴趣下降。（我称这个阶段为“绝望之冬”。）

■ 启蒙斜坡（Slope of Enlightenment）：也称稳步爬升复苏期，在这一阶段，技术逐渐成熟，问题被解决，技术局限得到一定突破，技术开始真正应用于实际问题。

■ 生产力高原（Plateau of Productivity）：也称生产成熟期，在这一阶段，技术成熟并被广泛接受，其价值和实际应用被公众认可。

图1.10　2023年AI技术成熟度曲线（图片来源：Gartner）

在图1.10中，不同技术被标注在曲线的不同阶段，表示它们当前在炒作周期中的位置。例如，智能机器人（Smart Robot）、生成式AI（Generative AI）、基础模型（Foundation Model）等位于期望顶峰附近，这意味着它们目前正被大量炒作，而自动驾驶车辆、云人工智能服务等技术则在向生产力高原移动的路上。

小雪：每种技术旁边都有一个圆圈，这又代表什么？

咖哥：每种技术旁边的圆圈表示预计达到生产力高原的时间范围。颜色不同的圆圈代表了不同的时间跨度，从“2年以内”到“10年以上”。以我们的经验来判断，有些技术会在没有达到生产力高原阶段就已经过时。

小雪：那么我们现在谈论的Agent不会这样吧？

咖哥：当然不会。Agent的“希望之春”不仅陡峭，而且“绝望之冬”也不是深渊。当噱头消失之后，新的进展又会兴起。未来的世界需要更多懂AI、懂Agent的人才。我们现在做的每一款产品、讨论的每一句话、编写的每一行代码都可能会推动Agent前进。

小雪：嗯呐，直到Agent能够端茶倒水伺候我。

咖哥：又来了！

1.3.5　知识、记忆、理解、表达、推理、反思、泛化和自我提升

大模型驱动的这一轮人工智能（包括Agent本身）热潮当然也会慢慢消退。然而，热潮消退的同时也代表着相关技术的日益成熟与快速发展。

目前，我们对基于大模型的Agent的发展和信心源自下面这些关键认知。

首先，大模型在预训练阶段获取了广泛的世界知识（见图1.11）。由于这一过程通过涵盖众多主题和语言的数据集进行，因此大模型能够对世界的复杂性建立一定的表征和映射关系。大模型内嵌对从历史模式到当前事件的洞见，变得擅长解读微妙的话语并对话题做出有意义的贡献，即使这些话题超出了它们最初的训练范围。这样广泛的预训练意味着，当Agent遇到新的场景或需要特定领域的信息时，它可以依赖广阔的知识基础来有效地导航和响应。这种知识基础并非静态不变；持续学习让这些知识得以充实和更新，从而保持大模型的相关性和洞察力。

图1.11　大模型不仅可以通过训练获取世界知识，而且可以注入外部知识

这些预训练时获得的知识都属于大模型这个Agent的大脑的记忆的一部分。大模型通过调整“神经元”的权重来理解和生成人类语言，这可以被视为其“记忆”的形成。Agent会结合记忆的知识和上下文来执行任务。此外，还可以通过检索增强生成（Retrieval-Augmented Generation，RAG）和外部记忆系统（如Memory Bank）整合来形成外部记忆——这是我们后面还要详细讲的重要内容。

其次，大模型极大地丰富了Agent的理解和表达能力。在此之前，虽然AI能在特定领域展现出惊人的能力，但在理解自然语言和复杂概念上总显得笨拙。大模型的出现，让AI能够理解和生成自然语言，使AI能够更深入地理解人类的沟通方式和知识体系。这些大模型被训练来理解广泛的主题和上下文，以便能够在各种情况下做出反应，并提供相应的信息和解决方案。这不仅仅是形式上的进步，更是质的飞跃。AI现在能够理解语境、把握语义，甚至在一定程度上理解复杂的人类情感和幽默，这使得Agent能够更加自然和高效地与人类交流。

再次，大模型的推理能力提高了Agent的自主性和适应性。传统的AI系统往往需要明确的指令和固定的规则，但现在的Agent，借助大模型，能够自主学习和适应。它们能学习海量的文本，理解世界的复杂性，并据此做出更加合理的决策。这种自主学习和适应的能力，让Agent看起来更像是一个能够独立思考和行动的实体，而不仅仅是一台执行预设任务的机器。这对于Agent来说意义重大，因为它们需要更好地理解自身所处的环境，并在此基础上做出合理的决策。例如，一个集成大模型的自动驾驶Agent不仅能够根据路况做出反应，而且能够理解突发事件的严重性，并据此制定策略。同样，一个集成大模型的虚拟助理不仅能够回答问题，而且能够理解用户的需求和情绪，提供更加个性化和有效的建议。

我让Agent基于ReAct框架为一张鲜花海报自动配上一个标题（见图1.12）。此时Agent会自主思考，并不断反思推演，确定是否完成所给的任务。

图1.12　一张鲜花海报

图1.13展示了Agent的自主思考过程。

图1.13　Agent的自主思考过程

此外，如同我们人类一样，学得多了，一通百通。随着大模型的参数越来越多，训练的语料越来越多，习得的知识也越来越广泛，此时大模型能力出现泛化现象。例如，在训练过程中大模型接触的英文资料较多，而某些小语种的资料较少，但是，由于各种语言都是相通的，基于广泛的理解能力，大模型在各种语言环境，即使是小语种环境中，都能够表现出色。这说明大模型可以将某些英文资料中的语言规律泛化到其他语言中。

咖哥发言

泛化是机器学习的一个重要概念，它指的是模型对未见过的数据做出准确预测或合理反应的能力。大模型中的泛化能力主要体现在以下几个方面。

■ 广泛的语言理解能力：由于大模型在训练过程中接触到各种各样的文本，它们能够理解和生成多种类型的语言，包括不同风格、话题和领域的文本。这种广泛的理解能力使得大模型在多样化的应用场景中都表现出色。

■ 强大的推理和解决问题的能力：大模型不仅能够理解文本，而且能够进行一定程度的逻辑推理。它们能够根据给定的信息做出推断、解答问题，甚至处理复杂的逻辑任务。这种能力在处理与训练数据不完全相同的新问题时尤为重要。

■ 适应新任务和新领域的能力：大模型能够快速适应新任务和新领域。即使是在训练过程中未曾接触过的任务类型，通过少量的微调，甚至不需要微调，大模型也能够表现出良好的性能。

■ 处理未知数据的能力：大模型能够对未见过的数据做出合理的反应。这包括理解新出现的词语、术语或概念，以及适应语言的自然演变。

■ 跨语言和跨文化的能力：随着训练数据的多样化，大模型在处理不同语言和文化背景的文本时的表现也更加出色。这使得大模型能够在全球化的应用环境中发挥重要作用。

然而，尽管大模型的泛化能力非常强大，但它们仍然存在局限性。例如，大模型可能在特定领域或特定类型的任务上表现不佳，或者在处理逻辑复杂、需要深层次理解的问题时出现偏差。此外，由于大模型的训练数据可能包含偏见，这种偏见也可能在大模型的泛化过程中被放大。随着技术的不断进步和研究的逐渐深入，我们可以期待大模型在泛化能力上有更大的提升。

这种泛化带给大模型更通用的能力，而通用性也为Agent提供了前所未有的创造力和灵活性。传统AI系统的行为通常比较机械，预测性强，但现在基于大模型和多模态模型的Agent通过理解和使用语言进行推理，能够针对同一主题生成新的内容（如图1.14所示，针对同一张海报，Agent运行的轮次不同，思考结果也不同，进而生成新的内容），提出新的创意，甚至在某些领域展现相当高的艺术天赋。这种创造力和灵活性以及完成各种任务的通用性能力极大地增强了Agent在各个领域的应用潜力。

最后，基于大模型的自我学习能力，Agent可以不断学习新的知识和经验，优化决策过程。这种自主学习能力是实现高度自主和适应性强的Agent的关键。

图1.14　Agent运行的轮次不同，思考结果也不同

1.3.6　基于大模型的推理能力构筑AI应用

在大模型开始涌现出语言理解和推理能力的基础上，我们能够构建一些AI应用，为企业业务流程中的各个环节降本增效，既可以用AI取代某些原来需要人工进行的工作，又可以利用AI来提高服务质量。

图1.15展示了我为某企业设计的基于产品知识库和GPT-4模型的Agent聊天助理的架构。目前大多数的Chatbot应用，要么只能从有限的问题池和回复池中进行选择，回复内容十分僵硬，针对预设问题给出固定答案；要么回复内容过于随意，只能重复说“你好”“谢谢”“有什么可以帮助您的”等模棱两可的语句。基于大模型的推理能力，加上RAG的检索和整合信息以及生成文本的能力，新的Agent能够生成自然且可靠的回复文本。

图1.15　基于产品知识库和GPT-4模型的Agent聊天助理的架构

然而，尽管大模型为Agent的发展提供了巨大的推动力，但Agent的商业化应用仍然面临诸多挑战，包括技术的稳定性和可靠性、伦理和隐私问题，以及如何将这些先进的技术转化为实际的商业价值等。这些挑战需要时间和更多的创新来解决。

那么，再转回来继续回答前面提出的问题的另外一面——为什么人们对Agent的未来如此乐观。这背后也有几个原因。首先，技术的进步是不可逆转的。大模型的出现已经证明了AI的巨大潜力，随着技术的不断完善和应用的深入，Agent的能力只会越来越强。其次，市场需求非常大。在各个行业，从医疗到金融，从教育到娱乐，Agent都有可能带来革命性的变革。最后，全球的研究人员、企业家和投资者都在投入资源，推动AI技术的发展。这种集体努力无疑会加速Agent的成熟和应用。

虽然Agent的商业应用仍处于起步阶段，但其潜力无疑是巨大的。大模型不仅改变了AI的能力和定位，而且为Agent的未来带来无限可能。随着技术不断进步和挑战得到解决，我们有理由相信，Agent的时代终将到来。

1.3 Agent的大脑：大模型的通用推理能力

1.3.1 人类的大脑了不起

1.3.2 大模型出现之前的Agent

1.3.3 大模型就是Agent的大脑

咖哥发言

1.3.4 期望顶峰和失望低谷

1.3.5 知识、记忆、理解、表达、推理、反思、泛化和自我提升

咖哥发言

1.3.6 基于大模型的推理能力构筑AI应用

1.3　Agent的大脑：大模型的通用推理能力

1.3.1　人类的大脑了不起

1.3.2　大模型出现之前的Agent

1.3.3　大模型就是Agent的大脑

1.3.4　期望顶峰和失望低谷

1.3.5　知识、记忆、理解、表达、推理、反思、泛化和自我提升

1.3.6　基于大模型的推理能力构筑AI应用