大模型应用开发动手做AI Agent最新章节_黄佳著

1.2　那么，究竟何谓Agent

小雪：咖哥，你的无比美好的未来愿景建立在一个事实之上——AI必须成为自主驱动的Agent，那么你能否说清楚什么是Agent？

咖哥：Agent作为一种新兴的人工智能技术，正在受到越来越多的关注。要说清楚什么是Agent，先得看看人工智能的本质是什么。

人工智能这个名称来自它试图通过计算机程序或机器来模拟、扩展和增强人类智能的一些方面。在这个定义中，“人工”指的是由人类创造或模拟，而“智能”指的是解决问题、学习、适应新环境等的能力。人工智能领域的研究涵盖了从简单的自动化任务到复杂的决策和问题解决过程，其根本追求是开发出能模仿、再现甚至超越人类智能水平的技术和系统。

传统的人工智能技术通常局限于静态的功能，它们只能在特定且受限的环境中执行预先设定的任务。这些系统往往缺乏灵活性和自适应能力，无法自主地根据环境变化调整自己的行为。

这个局限就是Agent概念的出发点，它旨在推动AI从静态的、被动的存在转变为动态的、主动的实体。

那么，下个定义：Agent，即智能体或智能代理（见图1.4），是一个具有一定程度自主性的人工智能系统。更具体地说， Agent是一个能够感知环境、做出决策并采取行动的系统。

咖哥发言

Agent也可以译为“代理”。代理是一个历史悠久的概念，对这个概念的探索和解释并不仅限于AI领域。在哲学中，代理的核心概念可以追溯到亚里士多德和大卫·休谟等有影响力的思想家。在哲学领域内，代理可以是人类、动物，或任何具有自主性的概念或实体。

■ 亚里士多德在伦理学和形而上学方面的作品中探讨了代理的概念。对于亚里士多德来说，代理与目的性和因果关系密切相关。他强调了目的性行动的重要性，认为行为背后总有一个目的或终极原因。在《尼各马科伦理学》中，亚里士多德探讨了人的行为是如何被理性和欲望所驱动的，而理性行为被认为是实现最终目的的关键。亚里士多德的观点强调了个体行为的自主性和目的性。

■ 大卫·休谟则在他的作品中探讨了自由意志与决定论的关系，这与代理的概念紧密相关。休谟是怀疑论哲学家，他对因果关系的常规理解提出了质疑。在《人性论》中，休谟探讨了人类理性的局限性和情感在决策过程中的作用。休谟关于代理的看法更加注重个体决策中的非理性因素，如情感和习惯。

在狭义上，“代理性”通常用来描述有意识行动的表现，相应地，术语“代理”则指拥有欲望、信念、意图和行动能力的实体。然而，广义上的“代理”是一个具有行动能力的实体，而术语“代理性”则指的是行使或表现这种能力的能力。此时，代理不仅仅包括个体人类，还包括物理世界和虚拟世界中的其他实体。重要的是，代理的概念涉及个体自主性，赋予他们行使意志、做出选择和采取行动的能力，而不是被动地对外界刺激做出反应。

图1.4　一个可爱的Agent

主流的人工智能社区于20世纪80年代中期开始关注与代理相关的概念。一种说法甚至认为我们可以定义人工智能为旨在设计和构建具有智能行为的代理的计算机科学子领域。由于传统的物理和计算机科学没有意识和欲望这样的概念，因此，在被引入人工智能领域时，代理的含义发生了一些变化。许多研究者（包括艾伦·图灵）都没有赋予机器“心智”。在人工智能领域中，代理是一种具有计算能力的实体，研究者只能观察到它们的行为和决策过程。为了深入理解和描述这些代理，研究者通常会引入其他几个关键属性，包括自主性、反应性、社会亲和性以及学习能力，以全面地认识人工智能代理的能力和潜力。

这里有一个很有趣的哲学问题，那就是“代理性”只是观察者所看到的，它并不是一个固有的、孤立的属性。目前我们倾向于把所有能够感知环境、做出决策并采取行动的实体或系统视为人工智能领域中的代理。 ^[1]

小雪：感知环境？做出决策？采取行动？这3个概念能否举例说说？

咖哥：当然。例如，ChatGPT首先通过文本或语音输出框来感知环境，并进行推理决策，之后再通过文本框或者语音与人们互动。当然，还有更为复杂的Agent。这里以自动驾驶Agent为例进行介绍。

■ 感知环境，就是指Agent能够接收来自环境的信息。例如，一个自动驾驶Agent可以感知周围的交通情况、道路状况等信息。

■ 做出决策，就是指Agent根据感知的信息制订下一步的行动计划。例如，自动驾驶Agent根据感知的信息决定是否加速、减速、转弯等。

■ 采取行动，就是指Agent根据决策执行相应的行动。例如，自动驾驶Agent根据决策控制汽车的加速器、刹车、方向盘等。

因此，Agent能够独立完成特定的任务。Agent的四大特性如下。

■ 自主性：Agent 能够根据自身的知识和经验，独立做出决策和执行行动。

■ 适应性：Agent 能够学习和适应环境，不断提高自己的能力。

■ 交互性：Agent 能够与人类进行交互，提供信息和服务。

■ 功能性：Agent可以在特定领域内执行特定的任务。

从技术角度来说，Agent通常包括以下核心组件。

■ 感知器：Agent通过感知器接收关于环境的信息。这可以是通过传感器收集的实时数据，也可以是通过数据库或互联网获取的信息。

■ 知识库：Agent根据目标和以往的经验，通过知识库存储和管理有关环境和自身状态的信息。

■ 决策引擎：Agent分析感知的信息，并结合知识库中的数据，通过决策引擎做出决策。

■ 执行器：Agent通过执行器在环境中采取行动。这可以是物理动作，如机器人移动其手臂，也可以是虚拟动作，如在线服务发送信息。

被这些组件武装的Agent形成了新一代的人工智能系统（见图1.5），它将AI的应用范围和能力推向了全新的高度。

不难发现，Agent的内涵核心就是自主性和适应性。通过模仿生物体的自主性和适应性，Agent在解决现实世界复杂问题的能力上坚实地向前迈进。Agent不仅能够执行被动的任务，还能够主动寻找解决问题的方法，适应环境的变化，并在没有人类直接干预的情况下做出决策。这使得Agent在复杂和动态的环境中特别有用，例如在数据分析、网络安全、自动化制造、个性化医疗等领域中。它们是AI的行动者，无论是自动驾驶汽车、推荐系统还是智能助手，所有这些都需要Agent来实现。随着技术进步，你可以期待各种智能Agent走入你的生活，帮你解决问题，提升生活质量。

图1.5　Agent的核心组件

小雪：嗯，我就盼望着，等我老了，能够有个机器人“小棉袄”，我无聊了它能陪我聊天；我饿了它能给我做饭（见图1.6）；我生病了它能扶我起床、上厕所，甚至端茶倒水照顾我。

图1.6　斯坦福大学IRIS实验室团队发布的“家务全能”机器人（图片来源：GitHub项目 Mobile ALOHA）

咖哥：一起努力！这不是梦想。

1.2 那么，究竟何谓Agent

咖哥发言

1.2　那么，究竟何谓Agent