推荐序二

强化学习又称为增强学习或再励学习（Reinforcement learning），是 AlphaGo、AlphaGo Zero等人工智能软件的核心技术。近年来，随着高性能计算、大数据和深度学习技术的突飞猛进，强化学习算法及其应用也得到更为广泛的关注和更加快速的发展。尤其是强化学习与深度学习相结合而发展起来的深度强化学习技术已经取得若干突破性进展。AlphaGo与人类顶级棋手之间的对弈，使得深度强化学习技术在学术界和工业界得到了更为广泛的关注。强化学习不仅在计算机博弈中取得巨大成功，而且在机器人控制、汽车智能驾驶、人机对话、过程优化决策与控制等领域，也被认为是实现高级人工智能最有潜力的方法。

本人在多年从事强化学习与近似动态规划理论和应用的研究过程中，力求不断提升强化学习算法的快速收敛性和泛化性能，并且将强化学习新理论和新算法应用于移动机器人和自主驾驶车辆等领域，为智能移动机器人和自主驾驶车辆在复杂、不确定条件下的自主优化决策和自学习控制提供高效的技术手段。今后，随着相关理论和技术的不断进步，强化学习技术在智能机器人和自主驾驶车辆、复杂生产过程的优化决策与控制、天空与海洋无人系统等领域的应用将很快会有新的突破。

强化学习的思想从 20 世纪初便被提出来了，经过将近一个世纪的发展，强化学习与心理学、运筹学、智能控制、优化理论、计算智能、认知科学等学科有着密切的联系，是一个典型的多学科交叉领域。来自不同学科的概念和思想使得初学者学习和了解强化学习存在较大的困难。郭宪博士和方勇纯教授的这本《深入浅出强化学习：原理入门》用通俗的语言系统地讲解了强化学习的基本概念以及它们之间的关联关系。从内容的广度来看，这本书涵盖了强化学习领域的基本概念和基本方法（基于值函数的方法和基于直接策略搜索的方法）；从内容的深度来看，这本书既有传统的强化学习算法（基于表格的强化学习方法，如Qlearning，Sarsa算法等），也有最近发展起来的深度强化学习算法（如DQN，TRPO，DDPG等）。另外，该书还有两大特色：第一，在介绍强化学习算法的同时，相应地介绍了算法设计和分析的数学基础；第二，相关算法配有代码实例。这两个特色使得该书非常适合初学者、相关领域科研人员以及研究生学习和研讨。鉴于此，强烈推荐该书作为广大读者学习强化学习技术的入门读物，也希望该书能引导和帮助更多的学者投入到强化学习的研究和应用中，为我国新一代人工智能的发展贡献自己的力量。

徐昕
国防科技大学教授