大模型应用开发动手做AI Agent最新章节_黄佳著

1.5　Agent的行动力：语言输出能力和工具使用能力

除了感知力以外，Agent的智能体现之一还包括行动力——语言输出能力和工具使用能力。在这里，语言输出能力是Agent拥有进一步行动能力的前提条件。

1.5.1　语言输出能力

语言输出是Agent进行有效沟通的基础手段。通过这种方式，Agent能够将思考转化为语言，与人类用户或其他Agent交互。这不仅仅涉及信息的单向传递，更关键的是，Agent能够通过语言输出参与更复杂的社会交流，例如谈判、冲突解决或者教学活动等。

我们可以通过外部应用程序对Agent的输出进行解析，来指导完成下一步的行动。对大模型的语言输出进行解析，形成计算机可以操作的数据格式的伪代码如下。

def parse_agent_output(output):
    """
    解析Agent的输出，并提取关键信息
    :param output: Agent的输出文本
    :return: 解析后的关键信息
    """
    # 在这里实现解析逻辑，例如提取特定关键词、概念或命令
    # 这可以通过正则表达式、自然语言处理技术或简单的字符串分析来实现
    parsed_data = ...
    return parsed_data
def decide_next_action(parsed_data):
    """
    基于解析得到的数据，决定下一步行动
    :param parsed_data: 解析后的关键信息
    :return: 下一步行动的描述
    """
    # 根据解析的数据来决定下一步行动
    # 这可能是一个简单的逻辑判断，也可能是更复杂的决策过程
    action = ...
    return action
# 示例：使用Agent
agent_output = agent.ask("请提供明天的天气预报")
parsed_data = parse_agent_output(agent_output)
next_action = decide_next_action(parsed_data)
print(f"根据Agent的回答，我们决定的下一步行动：{next_action}")

其中，parse_agent_output 函数负责解析Agent的输出，并提取其中的关键信息。这个解析过程可以根据用户的具体需求定制，例如提取特定的信息或理解某种命令格式。decide_next_action 函数则基于解析得到的信息来决定接下来的行动。这个决策过程可以根据解析的信息做出相应的逻辑判断。你可以基于这个框架针对具体的应用场景进行扩展和定制。

1.5.2　工具使用能力

Agent的工具使用能力包含两层含义：一层是代码层面的工具调用；另一层是物理层面的交互。

在代码层面，Agent可以通过软件接口与各种系统交互。Agent可以调用外部API（Application Programming Interface，应用程序接口）来执行各种任务，如获取数据、发送指令或处理信息（见图1.17）。例如，天气预报Agent可能会调用天气服务的API来获取最新的天气信息。Agent也可以通过软件工具自动处理复杂的任务，例如使用脚本语言自动化办公软件的操作，或控制数据分析工具来处理和分析大量数据。更高级的Agent可以进行系统级的操作，例如文件系统的管理、操作系统层面的任务调度等。

图1.17　会使用工具的Agent

而物理层面的交互通常涉及机器人或其他硬件设备。这些设备被编程来响应Agent的指令，执行具体的物理操作。机器人或自动化设备可以执行物理任务，如移动物体、组装零件等，可以使用传感器获取环境数据（如温度、位置、图像等），并根据这些数据做出相应的物理响应。Agent也可以远程控制无人机、探测车等设备，执行探索、监控或其他任务。

在物理层面，Agent的能力扩展到与现实世界的直接交互，这要求其具备更高级的硬件控制能力和对物理环境的理解。从这里开始，我们进入了具身智能（Embodied Intelligence）的范畴。

1.5.3　具身智能的实现

具身智能是指使AI系统具有某种物理形态或与物理世界交互的能力，以增强其智能。这通常涉及机器人技术，但也可以包括其他形式的物理交互系统。核心思想是，智能不仅仅是抽象的信息处理过程，还包括能够在物理世界中有效操作和作用的能力。

具身智能要求Agent不仅能够理解其所处的环境，而且能够在其中进行有效的物理交互。这种智能的实现依赖于多模态感知、空间理解、物理世界的动力学知识，以及机械操作技能的结合。针对具身智能的研究不仅关注Agent如何执行任务，而且关注Agent如何学习和适应新的环境，以及与人类共享空间并安全互动。

机器学习和深度学习的进步使得Agent能够从经验中学习和推理，从而提高自适应能力。通过强化学习等技术，Agent能够在与环境互动的过程中学习如何有效地使用工具和执行任务。此外，模仿学习和人类指导也为Agent提供了学习复杂技能的方法。

在具身智能的范畴内，Agent通过感知环境和理解物理世界的法则，能够使用各种工具来完成任务。例如，机器人能够通过视觉和触觉传感器来识别与操纵物体，无人机能够通过内置传感器和控制系统在空中执行复杂的飞行任务，自动驾驶汽车能够理解道路环境并安全行驶。

在实际应用中，具身智能Agent已经开始出现。在工业自动化领域，智能机器人能够执行精密的组装任务；在医疗领域，手术机器人能够进行精确的操作；在家庭和服务行业，清洁机器人和服务机器人能够与人类互动并提供帮助。

小雪：这不就是我心心念念的“神器”吗？！

咖哥：谁说不是呢！

Agent的具身智能还涉及更广泛的社会和伦理问题，例如，如何确保Agent在与人共享的空间中安全行动，如何保护个人隐私，以及如何确保Agent的行为符合社会和文化规范。这些都是当前和未来研究的重要主题。

1.5 Agent的行动力：语言输出能力和工具使用能力

1.5.1 语言输出能力

1.5.2 工具使用能力

1.5.3 具身智能的实现

1.5　Agent的行动力：语言输出能力和工具使用能力

1.5.1　语言输出能力

1.5.2　工具使用能力

1.5.3　具身智能的实现