深入浅出强化学习：原理入门最新章节_郭宪著

1.3 强化学习如何解决问题

在回答强化学习如何解决序贯决策问题之前，我们先看看监督学习是如何解决问题的。从解决问题的角度来看，监督学习解决的是智能感知的问题。

我们依然用一个图来表示。如图1.2所示，监督学习最典型的例子是数字手写体识别，当给出一个手写数字时，监督学习需要判别出该数字是多少。也就是说，监督学习需要感知到当前的输入到底长什么样，当智能体感知到输入长什么样时，智能体就可以对它进行分类了。如图 1.2 所示，输入手写体长得像 4，所以智能体就可以判断它是 4 了。智能感知其实就是在学习“输入”长得像什么（特征），以及与该长相一一对应的是什么（标签）。所以，智能感知必不可少的前提是需要大量长相差异化的输入以及与输入相关的标签。因此，监督学习解决问题的方法就是输入大量带有标签的数据，让智能体从中学到输入的抽象特征并分类。

图1.2 强化学习

强化学习则不同，强化学习要解决的是序贯决策问题，它不关心输入长什么样，只关心当前输入下应该采用什么动作才能实现最终的目标。再次强调，当前采用什么动作与最终的目标有关。也就是说当前采用什么动作，可以使得整个任务序列达到最优。如何使整个任务序列达到最优呢？这就需要智能体不断地与环境交互，不断尝试，因为智能体刚开始也不知道在当前状态下哪个动作有利于实现目标。强化学习解决问题的框架可用图1.3表示。智能体通过动作与环境进行交互时，环境会返给智能体一个当前的回报，智能体则根据当前的回报评估所采取的动作：有利于实现目标的动作被保留，不利于实现目标的动作被衰减。具体的算法，我们会在后面一一介绍。用一句话来概括强化学习和监督学习的异同点：强化学习和监督学习的共同点是两者都需要大量的数据进行训练，但是两者所需要的数据类型不同。监督学习需要的是多样化的标签数据，强化学习需要的是带有回报的交互数据。由于输入的数据类型不同，这就使得强化学习算法有它自己的获取数据、利用数据的独特方法。那么，都有哪些方法呢？这是本书重点要讲的内容。在进入详细的讲解之前，我们在这里先简单地了解下这些强化学习算法的发展历史。

图1.3 强化学习基本框架

我们不去深究强化学习算法的具体发展历史，只给出两个关键的时间点。第一个关键点是1998年，标志性的事件是Richard S.Sutton出版了他的强化学习导论第一版，即Reinforcement Learning：An Introduction（该书第二版的中文版将由电子工业出版社出版），该书系统地总结了1998年以前强化学习算法的各种进展。在这一时期强化学习的基本理论框架已经形成。1998年之前，学者们关注和发展得最多的算法是表格型强化学习算法。当然，这一时期基于直接策略搜索的方法也被提出来了。如 1992 年R.J.Williams提出了Rinforce算法直接对策略梯度进行估计。第二个关键点是2013年DeepMind提出DQN（Deep Q Network），将深度网络与强化学习算法结合形成深度强化学习。从1998年到2013年，学者们也没闲着，发展出了各种直接策略搜索的方法。2013年之后，随着深度学习的火热，深度强化学习也越来越引起大家的注意。尤其是2016年和2017年，谷歌的AlphaGo连续两年击败世界围棋冠军，更是将深度强化学习推到了风口浪尖之上。如今，深度强化学习算法正在如火如荼地发展，可以说正是百家争鸣的年代，或许再过几年，深度强化学习技术会越来越普及，并发展出更成熟、更实用的算法来，我们拭目以待。