决策算法最新章节_米凯尔·J.科申德弗著

1.6.4 状态不确定性

在本书第四部分中，我们将不确定性扩展到包括状态的不确定性。我们无法准确地观测状态，而是接收到与状态只有概率关系的观测结果。此类问题可以建模为部分可观测的马尔可夫决策过程（Partially Observable Markov Decision Process，POMDP）。解决POMDP的一种常见方法包括在当前时间步骤（time step）的状态上推断信念分布（belief distribution），然后应用策略将信念映射到行为。在本书第四部分中，我们首先将讨论如何根据过去的观测和行为序列更新信念分布，然后将讨论求解POMDP的各种精确方法以及近似方法。

购买书籍时，会优先扣除您的代金券，再扣除阅饼；当您的余额不足时，可使用微信或支付宝支付，补足差价；
连载书籍勾选自动购买下一章后，会自动扣费，已购章节不会重复扣费；
书籍购买记录请至我的—购书记录中查询