决策算法最新章节_米凯尔·J.科申德弗著

1.6.2 序列问题

许多重要问题需要我们做出一系列的决策。虽然最大期望效用原则仍然适用，但在连续环境中的最佳决策需要对未来一系列的行为和观测进行推理。在本书的第二部分中，我们将讨论随机环境中的序列问题，其中行为结果具有不确定性。假设在模型已知并且环境完全可观测的前提下，我们将重点讨论序列问题的通用公式。在本书后面的讨论中，我们将放宽这两个假设。首先，我们的讨论将从介绍马尔可夫决策过程（Markov Decision Process，MDP）开始。马尔可夫决策过程是序列问题的标准数学模型。我们将讨论若干方法，以寻找这类问题的精确解。由于大型问题有时无法有效地找到精确解，因此我们将讨论离线以及在线近似算法的集合，以及一种涉及直接搜索参数化决策策略空间的方法。最后，为了验证决策策略在现实世界中部署时是否能够按预期执行，我们将讨论相应的验证方法。

购买书籍时，会优先扣除您的代金券，再扣除阅饼；当您的余额不足时，可使用微信或支付宝支付，补足差价；
连载书籍勾选自动购买下一章后，会自动扣费，已购章节不会重复扣费；
书籍购买记录请至我的—购书记录中查询