在本书第四部分中,我们将不确定性扩展到包括状态的不确定性。我们无法准确地观测状态,而是接收到与状态只有概率关系的观测结果。此类问题可以建模为 部分可观测的马尔可夫决策过程 (Partially Observable Markov Decision Process,POMDP)。解决POMDP的一种常见方法包括在当前时间步骤(time step)的状态上推断信念分布(belief distribution),然后应用策略将信念映射到行为。在本书第四部分中,我们首先将讨论如何根据过去的观测和行为序列更新信念分布,然后将讨论求解POMDP的各种精确方法以及近似方法。