购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.6 本书主要内容及安排

强化学习是线性代数、概率论、运筹学、优化、信息论等多学科交叉的一门学科,从上个世纪九十年代基本理论体系形成后的近二十年间,发展出了各式各样的强化学习算法。本书力求覆盖强化学习最基本的概念和算法,因此在写作过程中遵循了两条线索。第一条线索是强化学习的基本算法,第二条线索是强化学习算法所用到的基础知识。

我们先介绍第一条线索:强化学习算法解决的是序贯决策问题,而一般的序贯决策问题可以利用马尔科夫决策过程的框架来表述,因此在第2章中我们介绍了马尔科夫决策过程,即 MDP。马尔科夫决策过程能够用数学的形式将要解决的问题描述清楚,这也是为什么在介绍强化学习时首先要讲MDP的原因。

利用MDP将问题形式化后,就需要找到解决MDP问题的方法。对于模型已知的MDP 问题,动态规划是一个不错的解。因此在第 3 章我们会介绍基于动态规划的强化学习算法,并由此引出广义策略迭代的方法。广义策略迭代方法不仅适用于基于模型的方法,也适用于无模型的方法,是基于值函数强化学习算法的基本框架。因此,第3章是第4章基于蒙特卡罗方法、第5章基于时间差分方法和第6章基于值函数逼近方法的基础。

无模型的强化学习算法是整个强化学习算法的核心,而基于值函数的强化学习算法的核心是计算值函数的期望。值函数是个随机变量,其期望的计算可通过蒙特卡罗的方法得到。因此,第4章我们介绍了基于蒙特卡罗的强化学习算法。

基于蒙特卡罗的强化学习算法通过蒙特卡罗模拟计算期望,该方法需要等到每次试验结束后再对值函数进行估计,收敛速度慢。时间差分的方法则只需要一步便更新,效率高、收敛速度快。因此第5章我们对时间差分方法进行了详细介绍。

第4章到第5章介绍的是表格型强化学习。所谓表格型强化学习是指状态空间和动作空间都是有限集,动作值函数可用一个表格来描述,表格的索引分别为状态量和动作量。但是,当状态空间和动作空间很大,甚至两个空间都是连续空间时,动作值函数已经无法使用一个表格来描述,这时可以用函数逼近理论对值函数进行逼近。本书第6章详细介绍了基于值函数逼近的强化学习算法。

强化学习算法的第二大类是直接策略搜索方法。所谓直接策略搜索方法是指将策略进行参数化,然后在参数空间直接搜索最优策略。直接策略搜索方法中,最简单最直接的方法是策略梯度的方法。在第7章,我们详细介绍了策略梯度理论。

基于策略梯度方法最具挑战性的是更新步长的确定,若是更新步长太大,算法容易发散;更新步长太小,收敛速度又很慢。TRPO的方法通过理论分析得到单调非递减的策略更新方法。第8章我们对TRPO进行了详细推导和介绍。

当动作空间维数很高时,智能体的探索效率会很低,利用确定性策略可免除对动作空间的探索,提升算法的收敛速度,第9章对确定性策略搜索进行了详细介绍。

第7章到第9章,我们介绍的是无模型的直接策略搜索方法。对于机器人等复杂系统,无模型的方法随机初始化很难找到成功的解,因此算法难以收敛。这时,可以利用传统控制器来引导策略进行搜索。因此第 10 章介绍了基于引导策略搜索的强化学习算法。

在很多实际问题中,往往不知道回报函数。为了学习回报函数,第 11 章介绍了逆向强化学习的算法。

从第12章开始,我们介绍了最近发展出来的强化学习算法,分别是第12章的组合策略梯度和值函数方法,第13章的值迭代网络和第14章的PILCO方法及其扩展。

第二条线索是强化学习算法所用到的基础知识。

我们在第2章介绍了概率学基础。强化学习中最重要的概念是随机策略,因此在介绍概率学基础之后,对随机策略的基本概念进行了详细讲解。

当模型已知时,值函数的求解可以转化为线性方程组的求解。在第3章,我们介绍了线性方程组的数值求解方法——高斯-赛德尔迭代法,并利用时变与泛函分析中的压缩映射证明了算法的收敛性。

在强化学习算法中,值函数是累积回报的期望。利用采样数据计算期望是统计学讨论的主题。统计学中的重要技术,如重要性采样、拒绝性采样和 MCMC 方法都可用于强化学习算法中。我们在第4章介绍了这些基础知识。

在基于函数逼近的强化学习中,不同的函数逼近方法被应用到强化学习算法中。我们在第6章介绍了基本的函数逼近方法:基于非参数的函数逼近和基于参数的函数逼近。在基于参数的函数逼近中,我们重点介绍了神经网络,尤其是卷积神经网络,因为卷积神经网络是DQN及其变种算法的基础。

在TRPO中,替代目标函数用到了信息论的熵和相对熵的概念,同时TRPO的求解需要用到各种优化算法,因此在第8章我们介绍了基本的信息论概念和基本的优化方法。

引导策略搜索强化学习的优化目标用到了KL散度和变分推理,以及大型的并行优化算法,因此,我们在第10章介绍了大型监督算法常用的LBFGS优化算法,及其学习中的并行优化算法ADMM算法和KL散度及变分推理。

读者在阅读本书时,可依照章节顺序阅读。在遇到相关概念时可先阅读该章节的数学知识,通过数学知识帮助理解强化学习的内容。 F1URBieMBXlo61a+CrkeXKuwiiR5uu41cEkxG3WHb4EcuAkHrnkoWMa++gCZPMkZ

点击中间区域
呼出菜单
上一章
目录
下一章
×