购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.6.2 序列问题

许多重要问题需要我们做出一系列的决策。虽然最大期望效用原则仍然适用,但在连续环境中的最佳决策需要对未来一系列的行为和观测进行推理。在本书的第二部分中,我们将讨论随机环境中的序列问题,其中行为结果具有不确定性。假设在模型已知并且环境完全可观测的前提下,我们将重点讨论序列问题的通用公式。在本书后面的讨论中,我们将放宽这两个假设。首先,我们的讨论将从介绍 马尔可夫决策过程 (Markov Decision Process,MDP)开始。马尔可夫决策过程是序列问题的标准数学模型。我们将讨论若干方法,以寻找这类问题的精确解。由于大型问题有时无法有效地找到精确解,因此我们将讨论离线以及在线近似算法的集合,以及一种涉及直接搜索参数化决策策略空间的方法。最后,为了验证决策策略在现实世界中部署时是否能够按预期执行,我们将讨论相应的验证方法。 v9tnCz4vF2higXkwqX6sUze93WoVTLt08jEGpHv8UqfbPjzjP5+LtwUKfrMaYqlA

点击中间区域
呼出菜单
上一章
目录
下一章
×