深入浅出强化学习：原理入门最新章节_郭宪著

1.4 强化学习算法分类及发展趋势

已有的强化学习算法种类繁多，一般可按下列几个标准来分类。

（1）根据强化学习算法是否依赖模型可以分为基于模型的强化学习算法和无模型的强化学习算法。这两类算法的共同点是通过与环境交互获得数据，不同点是利用数据的方式不同。基于模型的强化学习算法利用与环境交互得到的数据学习系统或者环境模型，再基于模型进行序贯决策。无模型的强化学习算法则是直接利用与环境交互获得的数据改善自身的行为。两类方法各有优缺点，一般来讲基于模型的强化学习算法效率要比无模型的强化学习算法效率更高，因为智能体在探索环境时可以利用模型信息。但是，有些根本无法建立模型的任务只能利用无模型的强化学习算法。由于无模型的强化学习算法不需要建模，所以和基于模型的强化学习算法相比，更具有通用性。

（2）根据策略的更新和学习方法，强化学习算法可分为基于值函数的强化学习算法、基于直接策略搜索的强化学习算法以及AC的方法。所谓基于值函数的强化学习方法是指学习值函数，最终的策略根据值函数贪婪得到。也就是说，任意状态下，值函数最大的动作为当前最优策略。基于直接策略搜索的强化学习算法，一般是将策略参数化，学习实现目标的最优参数。基于AC的方法则是联合使用值函数和直接策略搜索。具体的算法会在后面介绍。

（3）根据环境返回的回报函数是否已知，强化学习算法可以分为正向强化学习和逆向强化学习。在强化学习中，回报函数是人为指定的，回报函数指定的强化学习算法称为正向强化学习。很多时候，回报无法人为指定，如无人机的特效表演，这时可以通过机器学习的方法由函数自己学出来回报。

为了提升强化学习的效率和实用性，学者们又提出了很多强化学习算法，如分层强化学习、元强化学习、多智能体强化学习、关系强化学习和迁移强化学习等。这些主题已超出了本书的范围，读者若是感兴趣，可在阅读完本书后在网上下载相关内容阅读。

强化学习尤其是深度强化学习正在快速发展，从当前的论文可以初步判断强化学习的发展趋势如下。

第一，强化学习算法与深度学习的结合会更加紧密。

机器学习算法常被分为监督学习、非监督学习和强化学习，以前三类方法分得很清楚，而如今三类方法联合起来使用效果会更好。所以，强化学习算法其中一个趋势便是三类机器学习方法在逐渐走向统一的道路。谁结合得好，谁就会有更好的突破。该方向的代表作如基于深度强化学习的对话生成等。

第二，强化学习算法与专业知识结合得将更加紧密。

如果将一般的强化学习算法，如 Qlearning 算法直接套到专业领域中，很可能不工作。这时一定不能灰心，因为这是正常现象。这时需要把专业领域中的知识加入到强化学习算法中，如何加？这没有统一的方法，而是根据每个专业的内容而变化。通常来说可以重新塑造回报函数，或修改网络结构（大家可以开心地炼丹灌水了☺）。该方向的代表作是NIPS2016的最佳论文值迭代网络（Value Iteration Networks）等。

第三，强化学习算法理论分析会更强，算法会更稳定和高效。

强化学习算法大火之后，必定会吸引一大批理论功底很强的牛人。这些牛人不愁吃穿，追求完美主义、又有很强的数学技巧，所以在强化学习这个理论还几乎是空白的领域，他们必定会建功立业，名垂千史。该方向的代表作如基于深度能量的策略方法，值函数与策略方法的等价性等。

第四，强化学习算法与脑科学、认知神经科学、记忆的联系会更紧密。

脑科学和认知神经科学一直是机器学习灵感的源泉，这个源泉往往会给机器学习算法带来革命性的成功。人们对大脑的认识还很片面，随着脑科学家和认知神经科学家逐步揭开大脑的神秘面纱，机器学习领域必定会再次受益。这个流派应该是以DeepMind 和伦敦大学学院为首，因为这些团体里面不仅有很多人工智能学家还有很多认知神经科学家。该方向的代表作如DeepMind关于记忆的一列论文。