到目前为止,在讨论序列问题时,我们假设状态迁移(transition,或称为转移)和奖励(reward,或称为激励、回报)模型是已知的。然而,在许多问题中,动态性和奖励机制并不明确,智能体必须通过经验学会实施何种行为。通过观测状态迁移和奖励机制的行为结果,智能体将选择使其长期奖励机制最大化的行为。解决这种存在模型不确定性的问题是 强化学习 (reinforcement learning)领域的主题,也是本书第三部分的重点。我们将讨论解决模型不确定性所面临的挑战。首先,智能体一方面需要对环境进行探索(exploration),另一方面需要学习如何通过经验获得对知识的利用(exploitation,或称为开发),智能体必须在这两个方面上做出谨慎的抉择。其次,奖励可能会在做出重要决策之后很长时间才会得到,因此,稍后的奖励必须归功于先前的决策。最后,智能体必须根据有限的经验进行泛化。我们将进一步讨论解决这些挑战的理论和关键算法。