本书共分为五部分:第一部分讨论在单个时间点对简单决策中的不确定性和实现目标进行推理的问题;第二部分将决策扩展到序列问题,即必须在处理过程中根据有关行为结果的信息做出一系列的决策;第三部分主要针对模型不确定性,即并不是从已知模型开始,而是学习如何通过与环境的交互来采取行动;第四部分针对状态不确定性,即不完善的感知信息会影响我们对完整环境状态的了解和掌握;最后一部分将讨论涉及多个智能体的决策情形。 6MDXh2/Egd0LqMi+vDhEpNeXdnTSX7T+sEJS1tnvTcfK9rP4OKjxQzhbY0q8LfEZ