深入浅出强化学习：原理入门最新章节_郭宪著

1.6 本书主要内容及安排

强化学习是线性代数、概率论、运筹学、优化、信息论等多学科交叉的一门学科，从上个世纪九十年代基本理论体系形成后的近二十年间，发展出了各式各样的强化学习算法。本书力求覆盖强化学习最基本的概念和算法，因此在写作过程中遵循了两条线索。第一条线索是强化学习的基本算法，第二条线索是强化学习算法所用到的基础知识。

我们先介绍第一条线索：强化学习算法解决的是序贯决策问题，而一般的序贯决策问题可以利用马尔科夫决策过程的框架来表述，因此在第2章中我们介绍了马尔科夫决策过程，即 MDP。马尔科夫决策过程能够用数学的形式将要解决的问题描述清楚，这也是为什么在介绍强化学习时首先要讲MDP的原因。

利用MDP将问题形式化后，就需要找到解决MDP问题的方法。对于模型已知的MDP 问题，动态规划是一个不错的解。因此在第 3 章我们会介绍基于动态规划的强化学习算法，并由此引出广义策略迭代的方法。广义策略迭代方法不仅适用于基于模型的方法，也适用于无模型的方法，是基于值函数强化学习算法的基本框架。因此，第3章是第4章基于蒙特卡罗方法、第5章基于时间差分方法和第6章基于值函数逼近方法的基础。

无模型的强化学习算法是整个强化学习算法的核心，而基于值函数的强化学习算法的核心是计算值函数的期望。值函数是个随机变量，其期望的计算可通过蒙特卡罗的方法得到。因此，第4章我们介绍了基于蒙特卡罗的强化学习算法。

基于蒙特卡罗的强化学习算法通过蒙特卡罗模拟计算期望，该方法需要等到每次试验结束后再对值函数进行估计，收敛速度慢。时间差分的方法则只需要一步便更新，效率高、收敛速度快。因此第5章我们对时间差分方法进行了详细介绍。

第4章到第5章介绍的是表格型强化学习。所谓表格型强化学习是指状态空间和动作空间都是有限集，动作值函数可用一个表格来描述，表格的索引分别为状态量和动作量。但是，当状态空间和动作空间很大，甚至两个空间都是连续空间时，动作值函数已经无法使用一个表格来描述，这时可以用函数逼近理论对值函数进行逼近。本书第6章详细介绍了基于值函数逼近的强化学习算法。

强化学习算法的第二大类是直接策略搜索方法。所谓直接策略搜索方法是指将策略进行参数化，然后在参数空间直接搜索最优策略。直接策略搜索方法中，最简单最直接的方法是策略梯度的方法。在第7章，我们详细介绍了策略梯度理论。

基于策略梯度方法最具挑战性的是更新步长的确定，若是更新步长太大，算法容易发散；更新步长太小，收敛速度又很慢。TRPO的方法通过理论分析得到单调非递减的策略更新方法。第8章我们对TRPO进行了详细推导和介绍。

当动作空间维数很高时，智能体的探索效率会很低，利用确定性策略可免除对动作空间的探索，提升算法的收敛速度，第9章对确定性策略搜索进行了详细介绍。

第7章到第9章，我们介绍的是无模型的直接策略搜索方法。对于机器人等复杂系统，无模型的方法随机初始化很难找到成功的解，因此算法难以收敛。这时，可以利用传统控制器来引导策略进行搜索。因此第 10 章介绍了基于引导策略搜索的强化学习算法。

在很多实际问题中，往往不知道回报函数。为了学习回报函数，第 11 章介绍了逆向强化学习的算法。

从第12章开始，我们介绍了最近发展出来的强化学习算法，分别是第12章的组合策略梯度和值函数方法，第13章的值迭代网络和第14章的PILCO方法及其扩展。

第二条线索是强化学习算法所用到的基础知识。

我们在第2章介绍了概率学基础。强化学习中最重要的概念是随机策略，因此在介绍概率学基础之后，对随机策略的基本概念进行了详细讲解。

当模型已知时，值函数的求解可以转化为线性方程组的求解。在第3章，我们介绍了线性方程组的数值求解方法——高斯-赛德尔迭代法，并利用时变与泛函分析中的压缩映射证明了算法的收敛性。

在强化学习算法中，值函数是累积回报的期望。利用采样数据计算期望是统计学讨论的主题。统计学中的重要技术，如重要性采样、拒绝性采样和 MCMC 方法都可用于强化学习算法中。我们在第4章介绍了这些基础知识。

在基于函数逼近的强化学习中，不同的函数逼近方法被应用到强化学习算法中。我们在第6章介绍了基本的函数逼近方法：基于非参数的函数逼近和基于参数的函数逼近。在基于参数的函数逼近中，我们重点介绍了神经网络，尤其是卷积神经网络，因为卷积神经网络是DQN及其变种算法的基础。

在TRPO中，替代目标函数用到了信息论的熵和相对熵的概念，同时TRPO的求解需要用到各种优化算法，因此在第8章我们介绍了基本的信息论概念和基本的优化方法。

引导策略搜索强化学习的优化目标用到了KL散度和变分推理，以及大型的并行优化算法，因此，我们在第10章介绍了大型监督算法常用的LBFGS优化算法，及其学习中的并行优化算法ADMM算法和KL散度及变分推理。

读者在阅读本书时，可依照章节顺序阅读。在遇到相关概念时可先阅读该章节的数学知识，通过数学知识帮助理解强化学习的内容。