深入浅出强化学习：原理入门最新章节_郭宪著

1.2 强化学习可以解决什么问题

如图1.1所示是强化学习算法的成功案例。其中的A图为典型的非线性二级摆系统。该系统由一个台车（黑体矩形表示）和两个摆（红色摆杆）组成，可控制的输入为台车的左右运动，该系统的目的是让两级摆稳定在竖直位置。两级摆问题是非线性系统的经典问题，在控制系统理论中，解决该问题的基本思路是先对两级摆系统建立精确的动力学模型，然后基于模型和各种非线性的理论设计控制方法。一般来说，这个过程非常复杂，需要深厚的非线性控制理论的知识。而且，在建模的时候需要知道台车和摆的质量，摆的长度等等。基于强化学习的方法则不需要建模也不需要设计控制器，只需要构建一个强化学习算法，让二级摆系统自己去学习就可以了。当学习训练结束后，二级摆系统便可以实现自平衡。图1.1中的B图是训练好的AlphaGo与柯洁对战的第二局棋，C 图则为机器人在仿真环境下自己学会了从摔倒的状态爬起来。这三个例子能很好地说明，强化学习算法在不同的领域能够取得令人惊艳的结果。当然，强化学习除了应用到非线性控制、下棋、机器人等方向，还可以应用到其他领域，如视频游戏、人机对话、无人驾驶、机器翻译、文本序列预测等。

图1.1 强化学习

例子是举不完的，可以用一句话来说明强化学习所能解决的问题：智能决策问题。更确切地说是序贯决策问题。什么是序贯决策问题呢？就是需要连续不断地做出决策，才能实现最终目标的问题。如图1.1中图A的二级摆问题，它需要在每个状态下都有个智能决策（在这里智能决策是指应该施加给台车什么方向、多大的力），以便使整个系统逐渐收敛到目标点（也就是两个摆竖直的状态）。图B中的AlphaGo则需要根据当前的棋局状态做出该下哪个子的决策，以便赢得比赛。图C中，机器人需要得到当前状态下每个关节的力矩，以便能够站立起来。一句话概括强化学习能解决的问题：序贯决策问题。那么，强化学习是如何解决这个问题的呢？