购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.2 强化学习可以解决什么问题

如图1.1所示是强化学习算法的成功案例。其中的A图为典型的非线性二级摆系统。该系统由一个台车(黑体矩形表示)和两个摆(红色摆杆)组成,可控制的输入为台车的左右运动,该系统的目的是让两级摆稳定在竖直位置。两级摆问题是非线性系统的经典问题,在控制系统理论中,解决该问题的基本思路是先对两级摆系统建立精确的动力学模型,然后基于模型和各种非线性的理论设计控制方法。一般来说,这个过程非常复杂,需要深厚的非线性控制理论的知识。而且,在建模的时候需要知道台车和摆的质量,摆的长度等等。基于强化学习的方法则不需要建模也不需要设计控制器,只需要构建一个强化学习算法,让二级摆系统自己去学习就可以了。当学习训练结束后,二级摆系统便可以实现自平衡。图1.1中的B图是训练好的AlphaGo与柯洁对战的第二局棋,C 图则为机器人在仿真环境下自己学会了从摔倒的状态爬起来。这三个例子能很好地说明,强化学习算法在不同的领域能够取得令人惊艳的结果。当然,强化学习除了应用到非线性控制、下棋、机器人等方向,还可以应用到其他领域,如视频游戏、人机对话、无人驾驶、机器翻译、文本序列预测等。

图1.1 强化学习

例子是举不完的,可以用一句话来说明强化学习所能解决的问题:智能决策问题。更确切地说是序贯决策问题。什么是序贯决策问题呢?就是需要连续不断地做出决策,才能实现最终目标的问题。如图1.1中图A的二级摆问题,它需要在每个状态下都有个智能决策(在这里智能决策是指应该施加给台车什么方向、多大的力),以便使整个系统逐渐收敛到目标点(也就是两个摆竖直的状态)。图B中的AlphaGo则需要根据当前的棋局状态做出该下哪个子的决策,以便赢得比赛。图C中,机器人需要得到当前状态下每个关节的力矩,以便能够站立起来。一句话概括强化学习能解决的问题:序贯决策问题。那么,强化学习是如何解决这个问题的呢? rn4rxVp0hTG5MNdiM3BeHLDYT3dfH276cQi+PlrG2nfPCSEqSmTZPkf9Tt040SXQ

点击中间区域
呼出菜单
上一章
目录
下一章
×