智能体 (agent)是一个实体,该实体基于对环境的观测而采取相应的操作。智能体可以是物理实体,诸如人类或机器人;也可以是非物理实体,例如完全通过软件实现的决策支持系统。智能体和环境之间的交互遵循 观测-操作行为循环 (observe-act cycle or loop),如图1-1所示。
智能体在时间 t 接收到一个关于环境的 观测 (observation),记为 o t 。例如,可以通过生物传感过程(诸如人类的行为)或者通过传感器系统(诸如空中交通控制系统的雷达)接收到 观测 。观测结果往往不完整或者包含噪声。例如,人类可能没有观察到逐渐靠近的飞机,或者雷达系统可能由于电磁干扰而错过了检测。随后,智能体将通过一些决策过程选择一个相应的操作行为 a t 。相应的操作行为(例如发出警报)可能会对环境产生不确定的影响。
图1-1 智能体与环境之间的交互
我们关注的重点是智能体。随着时间的推移,智能体能够与环境进行智能交互以逐渐实现目标。给定曾经发生的一系列观测序列 o 1 ,…, o t ,以及对环境的了解,智能体必须在存在各种不确定因素的情况下,选择一个最能实现其目标的操作行为 [1] 。不确定因素包括以下内容:
● 结果不确定性 (outcome uncertainty),操作行为的影响结果是不确定的。
● 模型不确定性 (model uncertainty),问题的模型是不确定的。
● 状态不确定性 (state uncertainty),环境的真实状态是不确定的。
● 交互不确定性 (interaction uncertainty),在环境中相互交互的其他智能体的行为是不确定的。
本书将围绕这四个不确定性来源因素展开相关的阐述。在存在不确定性的情况下做出决策是 人工智能 (artificial intelligence) [2]
领域的核心,同时也是许多其他领域的核心(如1.4节所述)。我们将讨论各种算法(即计算过程的具体描述),以实现对不确定性具有鲁棒性的决策。