购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.5 Agent的行动力:语言输出能力和工具使用能力

除了感知力以外,Agent的智能体现之一还包括行动力——语言输出能力和工具使用能力。在这里,语言输出能力是Agent拥有进一步行动能力的前提条件。

1.5.1 语言输出能力

语言输出是Agent进行有效沟通的基础手段。通过这种方式,Agent能够将思考转化为语言,与人类用户或其他Agent交互。这不仅仅涉及信息的单向传递,更关键的是,Agent能够通过语言输出参与更复杂的社会交流,例如谈判、冲突解决或者教学活动等。

我们可以通过外部应用程序对Agent的输出进行解析,来指导完成下一步的行动。对大模型的语言输出进行解析,形成计算机可以操作的数据格式的 伪代码 如下。

def parse_agent_output(output):
    """
    解析Agent的输出,并提取关键信息
    :param output: Agent的输出文本
    :return: 解析后的关键信息
    """
    # 在这里实现解析逻辑,例如提取特定关键词、概念或命令
    # 这可以通过正则表达式、自然语言处理技术或简单的字符串分析来实现
    parsed_data = ...
    return parsed_data
def decide_next_action(parsed_data):
    """
    基于解析得到的数据,决定下一步行动
    :param parsed_data: 解析后的关键信息
    :return: 下一步行动的描述
    """
    # 根据解析的数据来决定下一步行动
    # 这可能是一个简单的逻辑判断,也可能是更复杂的决策过程
    action = ...
    return action
# 示例:使用Agent
agent_output = agent.ask("请提供明天的天气预报")
parsed_data = parse_agent_output(agent_output)
next_action = decide_next_action(parsed_data)
print(f"根据Agent的回答,我们决定的下一步行动:{next_action}")

其中,parse_agent_output 函数负责解析Agent的输出,并提取其中的关键信息。这个解析过程可以根据用户的具体需求定制,例如提取特定的信息或理解某种命令格式。decide_next_action 函数则基于解析得到的信息来决定接下来的行动。这个决策过程可以根据解析的信息做出相应的逻辑判断。你可以基于这个框架针对具体的应用场景进行扩展和定制。

1.5.2 工具使用能力

Agent的工具使用能力包含两层含义:一层是代码层面的工具调用;另一层是物理层面的交互。

在代码层面,Agent可以通过软件接口与各种系统交互。Agent可以调用外部API(Application Programming Interface,应用程序接口)来执行各种任务,如获取数据、发送指令或处理信息(见图1.17)。例如,天气预报Agent可能会调用天气服务的API来获取最新的天气信息。Agent也可以通过软件工具自动处理复杂的任务,例如使用脚本语言自动化办公软件的操作,或控制数据分析工具来处理和分析大量数据。更高级的Agent可以进行系统级的操作,例如文件系统的管理、操作系统层面的任务调度等。

图1.17 会使用工具的Agent

而物理层面的交互通常涉及机器人或其他硬件设备。这些设备被编程来响应Agent的指令,执行具体的物理操作。机器人或自动化设备可以执行物理任务,如移动物体、组装零件等,可以使用传感器获取环境数据(如温度、位置、图像等),并根据这些数据做出相应的物理响应。Agent也可以远程控制无人机、探测车等设备,执行探索、监控或其他任务。

在物理层面,Agent的能力扩展到与现实世界的直接交互,这要求其具备更高级的硬件控制能力和对物理环境的理解。从这里开始,我们进入了具身智能(Embodied Intelligence)的范畴。

1.5.3 具身智能的实现

具身智能是指使AI系统具有某种物理形态或与物理世界交互的能力,以增强其智能。这通常涉及机器人技术,但也可以包括其他形式的物理交互系统。核心思想是,智能不仅仅是抽象的信息处理过程,还包括能够在物理世界中有效操作和作用的能力。

具身智能要求Agent不仅能够理解其所处的环境,而且能够在其中进行有效的物理交互。这种智能的实现依赖于多模态感知、空间理解、物理世界的动力学知识,以及机械操作技能的结合。针对具身智能的研究不仅关注Agent如何执行任务,而且关注Agent如何学习和适应新的环境,以及与人类共享空间并安全互动。

机器学习和深度学习的进步使得Agent能够从经验中学习和推理,从而提高自适应能力。通过强化学习等技术,Agent能够在与环境互动的过程中学习如何有效地使用工具和执行任务。此外,模仿学习和人类指导也为Agent提供了学习复杂技能的方法。

在具身智能的范畴内,Agent通过感知环境和理解物理世界的法则,能够使用各种工具来完成任务。例如,机器人能够通过视觉和触觉传感器来识别与操纵物体,无人机能够通过内置传感器和控制系统在空中执行复杂的飞行任务,自动驾驶汽车能够理解道路环境并安全行驶。

在实际应用中,具身智能Agent已经开始出现。在工业自动化领域,智能机器人能够执行精密的组装任务;在医疗领域,手术机器人能够进行精确的操作;在家庭和服务行业,清洁机器人和服务机器人能够与人类互动并提供帮助。

小雪:这不就是我心心念念的“神器”吗?!

咖哥:谁说不是呢!

Agent的具身智能还涉及更广泛的社会和伦理问题,例如,如何确保Agent在与人共享的空间中安全行动,如何保护个人隐私,以及如何确保Agent的行为符合社会和文化规范。这些都是当前和未来研究的重要主题。 7LXQBGIpIYcsvbbF5Sflz3TKqFL7vldLf003Ss+cSRdHQHYwLt1xRM3twLMMFD0L

点击中间区域
呼出菜单
上一章
目录
下一章
×