购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.6.4 状态不确定性

在本书第四部分中,我们将不确定性扩展到包括状态的不确定性。我们无法准确地观测状态,而是接收到与状态只有概率关系的观测结果。此类问题可以建模为 部分可观测的马尔可夫决策过程 (Partially Observable Markov Decision Process,POMDP)。解决POMDP的一种常见方法包括在当前时间步骤(time step)的状态上推断信念分布(belief distribution),然后应用策略将信念映射到行为。在本书第四部分中,我们首先将讨论如何根据过去的观测和行为序列更新信念分布,然后将讨论求解POMDP的各种精确方法以及近似方法。 6B7doGKjPKrV3d6LDf6c+b9igF1PA+4JgH/aJ8GDBaId+uSbe0X7TAT26Ch4GLFJ

点击中间区域
呼出菜单
上一章
目录
下一章
×