在第1章,我们讨论了 强化学习 的许多应用,从机器人到金融。在为这些应用程序实现任何强化学习算法之前,我们需要首先对它们进行数学建模。 马尔可夫决策过程 (Markov Decision Process, MDP)是我们用来对这些序贯决策问题进行建模的框架。马尔可夫决策过程有一些特殊的特性,使得我们更容易从理论上分析这些问题。基于这些理论结果, 动态规划 (Dynamic Programming, DP)是为马尔可夫决策过程提出解决方法的领域。从某种意义上说,强化学习是一组近似动态规划方法,使我们能够为非常复杂的问题获得好的(但不一定是最优的)解决方案,而这些问题很难用精确的动态规划方法解决。
在本章中,我们将逐步构建马尔可夫决策过程,解释其特性,并为后面章节中出现的强化学习算法奠定数学基础。在马尔可夫决策过程中,智能体采取的行动会产生长期后果,这就是它与我们之前介绍的 多臂老虎机 问题的不同之处。本章重点介绍量化这种长期影响的一些关键概念。它比其他章节涉及更多的理论,但别担心,我们将快速深入Python练习以更好地掌握这些概念。