深度强化学习：学术前沿与实战应用最新章节_刘驰著

1.2　马尔可夫属性和决策过程

1.2.1　马尔可夫属性

在RL框架中，智能体根据外界环境的信号（状态）来做出决策。那么，我们希望状态信号能够提供给我们怎么样的信息？这里，我们把环境及其状态信号的属性，称为马尔可夫属性（Markov property）。

前面小节中，我们已经很详细地描述了状态，即智能体可获得的任何信息。现在，我们不去考虑如何设计状态信号，而是将重点放在决策问题上。状态信号除了应该包括感知测量等即时性感知外，也可以包含一些其他有用信息。状态表示可以是对原始感知数据高度处理后的版本，也可以是随时间累积起来的感知序列等复杂结构。比如，我们可以将眼睛移动到一个场景上，该场景中任何时候只有一个微小斑点与其中央的凹陷之处相对应，然后为其建立一个丰富而详细的场景表示。又如，控制系统可以在两个不同的时间测量位置产生包括关于速度的信息在内的状态表示。不难发现，状态是用即时感知以及先前状态或过去感知的一些其他记忆来构建和维持的。我们不能将状态表示限定为即时感知，在典型的应用程序中，我们应该期望状态表示能够告知智能体不止于此。

另一方面，不应期望状态信号告知智能体关于环境的一切，或者是起决定性作用的一切。比如，在打麻将的时候，不应该指望智能体知道下一位玩家摸到的是什么牌；如果智能体在踢足球，不应该指望它事先知道下一刻足球飞向哪一个方向；如果智能体是一名护理人员，不应期望它立即知道受害者的内伤。所有这些情况，环境中都存在隐藏的状态信息，虽然这些信息是有用的，但是智能体收不到任何相关的感知。

理想情况下，我们想要的是这样的一种状态信号：它可以简洁地总结过去的感觉，但同时又能够保留所有的相关信息。通常这需要的是过去所有感觉的历史，而不仅仅是当下的感觉。成功保留所有相关信息的状态信号被称为马尔可夫，或具有马尔可夫属性。例如，棋盘位置，即棋盘上所有棋子的当前位置信息，将作为马尔可夫状态，因为它包含了促使它产生当前完整位置序列的所有重要信息。虽然关于序列的大部分信息都丢失了，但是保留了对游戏未来真正重要的部分。

下面我们来看一下马尔可夫属性的定义。为简单起见，我们假设状态和奖励值的个数是有限的，这样能够让我们以计算概率和求和的方式来进行问题讨论，从而避免计算积分和概率密度等复杂数学问题，但是可以很容易地扩展到连续状态和奖励的情况。考虑在一般情况下，环境如何在时间t+1响应在时间t采取的行动？在最常见的因果情况下，这种响应可能取决于之前发生的一切。这时，只能通过指定完整的概率分布来定义动态：

对于所有r、s'和所有过去事件的可能值s ₀ ,a ₀ ,r ₁ ,…,s _t-1 ,a _t-1 ,r _t ,s _t ,a _t ，如果状态信号具有马尔可夫属性，那么环境在t+1时刻的响应仅取决于时间t处的状态和动作，在这种情况下，对于所有的r、s'、s _t 和a _t ，环境的动态可以通过

来定义。也就是说，对于所有r、s'和历史s ₀ ,a ₀ ,r ₁ ,…,s _t-1 ,a _t-1 ,r _t ,s _t ,a _t ，当且仅当式（1.2）等于式（1.1）时，状态信号具有马尔可夫属性，并且是马尔可夫状态。在这种情况下，环境和任务作为一个整体也被认为具有马尔可夫属性。

如果一个环境具有马尔可夫属性，那么它的一步动态使我们能够根据当前状态和动作预测下一个状态和预期奖励。通过迭代该等式，可以仅从当前状态的知识预测所有的未来状态和预期奖励，同样，给定直到当前时间下的完整历史也是可能的。此外，马尔可夫状态为选择行动提供了最好的依据。也就是说，选择行动作为马尔可夫状态函数的最优策略与选择行动作为完整历史函数的最优策略一样好。

即使状态信号是非马尔可夫的，将RL中的状态看作马尔可夫状态的近似也是合适的。我们总是希望状态成为预测未来奖励和选择行动的良好基础。在学习环境模型的情况下，我们还希望状态是预测后续状态的良好基础。而马尔可夫状态为所有这些事情提供了无与伦比的基础。在某种程度上，状态以这些方式接近马尔可夫状态的能力，使得人们可以在RL系统中获得更好的表现。所以，将每个时间步的状态视为马尔可夫状态的近似是有用的，尽管有时候它并非完全满足马尔可夫性质。

马尔可夫属性在RL中很重要，因为决策和值被假定为仅是当前状态的函数。为了使它们能够提供有效信息，状态的表示必须是信息性的。虽然并非所有的理论都严格适用于马尔可夫属性不严格的情况，但是为马尔可夫案例开发的理论仍然有助于我们理解算法的行为，并且可以成功应用于许多具有非严格马尔可夫状态的任务。充分理解马尔可夫案例理论是将其扩展到更加复杂、现实的非马尔可夫案例的重要基础。最后，马尔可夫状态表示的假设并不是RL所特有的，其也存在于许多其他人工智能方法中。

1.2.2　马尔可夫决策过程

满足马尔可夫属性的RL任务称为MDP ^[1] 。如果状态空间和动作空间是有限的，则被称为有限MDP（Finite Markov Decision Process,FMDP）。FMDP对RL理论尤为重要，90%的现代RL它都有所涉及。

特定的FMDP可由其状态、动作集和环境的一步动态来定义。给定任何状态及动作s和a，每个可能的下一状态s'和奖励r的概率可用

来表示，这些量完全指定了FMDP的动态。

给定式（1.3）指定的动态，就可以计算任何关于环境的其他相关内容，例如状态-动作所对应的预期奖励：

状态变换概率：

状态-行动-下一状态的预期奖励：

形式上，RL可以被描述为MDP，其中包括：

·一系列状态S，加上起始状态p(s ₀ )的分布。

·一系列动作A。

·动态转换T(s _t+1 |s _t ,a _t )，其将时间t处的状态-动作映射到时间t+1处的状态分布。

·一个即时奖励函数r(s _t ,a _t ,s _t+1 )。

·折扣因子γ∈[0,1]，其中较低的γ值更强调即时性奖励。

通常，策略π是从状态到动作概率分布的映射：π:S→p(A=a|S)。如果马尔可夫过程是情节性的（episodic）（每经过T个episode之后重置状态），那么一个episode的状态、动作和奖励序列就构成了策略的轨迹或推出。策略的每次推出都会累积来自环境的回报，从而返回结果。RL的目标是找到一个最优策略π ^* ，它可以得到所有状态的最大预期回报：

对于非情节性的MDP，即T=∞，让γ<1可以防止无限累积奖励。此时，依赖于完整轨迹的方法不再适用，但那些使用有限过渡的方法仍然可以很好地发挥作用。

从上一小节中我们了解到RL的一个关键概念是马尔可夫属性：只有当前状态影响下一个状态，或者说，在给定当前状态的情况下，未来在条件上独立于过去。也就是说，在s _t 处做出的任何决策都可以仅基于s _t-1 ，而不是过去的整个历史{s ₀ ,s ₁ ,…,s _t-1 }。尽管这种假设是由大多数RL算法保留的，但它有点不切实际，因为它要求状态是完全可观察的。

对于更一般的情况来讲，MDP是部分可观察的，也称之为部分可观察MDP（Partial Observable Markov Decision Process，POMDP）。在POMDP中，智能体接收到观测o _t ∈Ω，其中观测的概率分布p(o _t+1 |s _t+1 ,a _t )取决于当前状态和先前的动作。在控制和信号处理环境中，观察将通过状态空间模型中测量/观测的映射来描述，该映射取决于当前状态和先前采取的动作。在给定先前的信念（belief）状态、所采取的动作和当前的观测等情况下，POMDP算法通常保持对当前状态的信念。

1.2 马尔可夫属性和决策过程

1.2.1 马尔可夫属性

1.2.2 马尔可夫决策过程

1.2　马尔可夫属性和决策过程

1.2.1　马尔可夫属性

1.2.2　马尔可夫决策过程