决策算法最新章节_米凯尔·J.科申德弗著

1.6.3 模型不确定性

到目前为止，在讨论序列问题时，我们假设状态迁移（transition，或称为转移）和奖励（reward，或称为激励、回报）模型是已知的。然而，在许多问题中，动态性和奖励机制并不明确，智能体必须通过经验学会实施何种行为。通过观测状态迁移和奖励机制的行为结果，智能体将选择使其长期奖励机制最大化的行为。解决这种存在模型不确定性的问题是强化学习（reinforcement learning）领域的主题，也是本书第三部分的重点。我们将讨论解决模型不确定性所面临的挑战。首先，智能体一方面需要对环境进行探索（exploration），另一方面需要学习如何通过经验获得对知识的利用（exploitation，或称为开发），智能体必须在这两个方面上做出谨慎的抉择。其次，奖励可能会在做出重要决策之后很长时间才会得到，因此，稍后的奖励必须归功于先前的决策。最后，智能体必须根据有限的经验进行泛化。我们将进一步讨论解决这些挑战的理论和关键算法。

购买书籍时，会优先扣除您的代金券，再扣除阅饼；当您的余额不足时，可使用微信或支付宝支付，补足差价；
连载书籍勾选自动购买下一章后，会自动扣费，已购章节不会重复扣费；
书籍购买记录请至我的—购书记录中查询