前言

2017年5月，AlphaGo击败世界围棋冠军柯洁，标志着人工智能进入一个新的阶段。AlphaGo背后的核心算法——深度强化学习——成为继深度学习之后广泛受人关注的前沿热点。与深度学习相比，深度强化学习具有更宽泛的应用背景，可应用于机器人、游戏、自然语言处理、图像处理、视频处理等领域。深度强化学习算法被认为是最有可能实现通用人工智能计算的方法。不过，由于深度强化学习算法融合了深度学习、统计、信息学、运筹学、概率论、优化等多个学科的内容，因此强化学习的入门门槛比较高，并且，到目前为止，市面上没有一本零基础全面介绍强化学习算法的书籍。

本书是笔者在南开大学计算机与控制工程学院做博士后期间，每周在课题组内讲解强化学习知识的讲义合集。在学习强化学习基本理论的时候，我深深地感受到强化学习理论中的很多概念和公式都很难理解。经过大量资料和文献的查阅并终于理解一个全新的概念时，内心涌现的那种喜悦和兴奋，鼓动着我将这些知识分享给大家。为此，我在知乎开辟了《强化学习知识大讲堂》专栏，并基本保持了每周一次更新的速度。该专栏得到大家的关注，很多知友反映受益良多，本书的雏形正是来源于此。在成书时，考虑到书的逻辑性和完整性，又添加了很多数学基础和实例讲解。希望本书能帮助更多的人入门强化学习，开启自己的人工智能之旅。

在写作过程中，博士后合作导师方勇纯教授给了大量的建议，包括书的整体结构、每一章的讲述方式，甚至每个标题的选择。写作后，方老师细致地审阅了全文，给出了详细的批注，并多次当面指导书稿的修改。正是因为方老师的耐心指导与辛勤付出，本书才得以顺利完成。

同时，非常感谢组内的研究生丁杰、朱威和赵铭慧三位同学，通过与他们的交流，我学会了如何更明晰地讲解一个概念。本书的很多讲解方式都是在与他们的交流中产生的。

本书在写作过程中参考了很多文献资料，这些文献资料是无数科研工作者们日日夜夜奋斗的成果。本书对这些成果进行加工并形成了一套自成体系的原理入门教程。可以说没有这些科研工作者们的丰硕成果就没有今天蓬勃发展的人工智能，也就没有这本书，在此对这些科学工作者们表示由衷的敬意。

本书前六章的内容及组织思路很大部分参考了David Silver的网络课程，同时参考了强化学习鼻祖 Richard S.Sutton 等人所著的 Reinforcement Learning：An Introduction，在此向Silver和Sutton致敬。

本书第8章介绍了置信域强化学习算法，主要参考了John Shulman的博士论文，在此向 John Shulman博士及其导师 Pieter Abbeel致敬。第 10章主要介绍了 Sergey Levine博士的工作，在此对其表示感谢。在强化学习前沿部分，本书介绍了最近一年该领域很优秀的研究工作，如Donoghue的组合策略梯度和Qlearning方法，Tamar的值迭代网络，Deisenroth的PILCO方法和McAllister的PILCO扩展方法，在此对这些作者表示感谢。当然，本书还介绍了很多其他科研工作者的工作，在此对他们一并致谢。

本书阐述的主要是前人提出的强化学习算法的基本理论，并没有介绍笔者个人的工作，但在此仍然要感谢目前我负责的两项基金的支持：国家自然科学基金青年基金（61603200）和中国博士后基金面上项目（2016M601256）。这两个项目都和强化学习有关，本书也可看成是这两个项目的前期调研和积累。关于更多笔者个人的工作，留待以后再与大家分享。

由于个人水平有限，书稿中难免有错误，欢迎各位同行和读者批评指正。我的个人邮箱是guoxiansia@163.com，如有疑问，欢迎咨询。

最后，感谢我的家人，感谢我的爱人王凯女士，感谢她长时间对我的理解和支持，没有她的帮助，我一无所有，一事无成。这本书献给她。

郭宪
2017年11月