决策算法最新章节_米凯尔·J.科申德弗著

1.1 决策

智能体（agent）是一个实体，该实体基于对环境的观测而采取相应的操作。智能体可以是物理实体，诸如人类或机器人；也可以是非物理实体，例如完全通过软件实现的决策支持系统。智能体和环境之间的交互遵循观测-操作行为循环（observe-act cycle or loop），如图1-1所示。

智能体在时间 t 接收到一个关于环境的观测（observation），记为 o _t 。例如，可以通过生物传感过程（诸如人类的行为）或者通过传感器系统（诸如空中交通控制系统的雷达）接收到观测。观测结果往往不完整或者包含噪声。例如，人类可能没有观察到逐渐靠近的飞机，或者雷达系统可能由于电磁干扰而错过了检测。随后，智能体将通过一些决策过程选择一个相应的操作行为 a _t 。相应的操作行为（例如发出警报）可能会对环境产生不确定的影响。

图1-1 智能体与环境之间的交互

我们关注的重点是智能体。随着时间的推移，智能体能够与环境进行智能交互以逐渐实现目标。给定曾经发生的一系列观测序列 o ₁ ，…， o _t ，以及对环境的了解，智能体必须在存在各种不确定因素的情况下，选择一个最能实现其目标的操作行为 ^[1] 。不确定因素包括以下内容：

● 结果不确定性（outcome uncertainty），操作行为的影响结果是不确定的。

● 模型不确定性（model uncertainty），问题的模型是不确定的。

● 状态不确定性（state uncertainty），环境的真实状态是不确定的。

● 交互不确定性（interaction uncertainty），在环境中相互交互的其他智能体的行为是不确定的。

本书将围绕这四个不确定性来源因素展开相关的阐述。在存在不确定性的情况下做出决策是人工智能（artificial intelligence） ^[2]

领域的核心，同时也是许多其他领域的核心（如1.4节所述）。我们将讨论各种算法（即计算过程的具体描述），以实现对不确定性具有鲁棒性的决策。