购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

推荐序五

受行为主义心理学研究启发,在机器学习领域中产生了一种交互式学习方法的分支,这便是强化学习,又称为增强学习。强化学习模拟的是人类的一种学习方式,在执行某个动作或决策后根据执行效果来获得奖励,通过不断与环境的交互进行学习,最终达到目标。强化学习概念早在上世纪就已经提出,在计算机领域,第一个增强学习问题是利用奖惩手段学习迷宫策略。然而,直到2016年AlphaGo对决李世石一战成名后,强化学习的概念才真正广为人知。强化学习主要应用于众多带有交互性和决策性问题,比如博弈、游戏、机器人、人机对话等,这些问题是常用的监督学习和非监督学习方法无法很好处理的。

本人一直从事移动机器人、机器视觉和机器学习领域的研究,以及人工智能课程的教学。此前,为了解决人形机器人斜坡稳定行走问题,在查阅深度学习相关资料的过程中,在网上偶然看到郭宪博士开辟的强化学习专栏,读后很有收获。现在他将专栏文章整理编著成书,重新按知识层次进行编排和补充,对于读者学习更有帮助。

本书覆盖了强化学习最基本的概念和算法。在基于值函数的强化学习方法中,介绍了蒙特卡罗法、时间差分法和值函数逼近法。在基于直接策略搜索的强化学习方法中,介绍了策略梯度法、置信域策略法、确定性策略搜索法和引导策略搜索。在强化学习的前沿部分,介绍了逆向强化学习、深度强化学习和 PILCO 等。除了深度学习算法本身,书中还对涉及的基础知识,如概率学基础、马尔科夫决策过程、线性方程组的数值求解方法、函数逼近方法、信息论中熵和相对熵的概念等也做了详细的说明。本书非常适合科技人员、高等学校师生和感兴趣人员作为入门强化学习的读物,也可作为相关研究和教学的参考书。

本书内容深入浅出、文字简单明了,采用了丰富的实例,让读者易读、易懂。同时配有习题和代码详解,能有效提升读者对理论知识的理解,帮助读者运用理论解决实际问题。建议读者跟随书中的示例和代码(https://github.com/gxnk/reinforcement-learning-code)来实现和验证相关强化学习算法,并可同时关注作者的知乎专栏(https://zhuanlan.zhihu.com/sharerl)以便更好地互动和探讨相关细节。

陈白帆
中南大学副教授 湖南省自兴人工智能研究院副院长 IAQeSqXpiZ5v1Pc63cRaa9IvYYA2+G4AiPZRkrrQtb8CPwYgdUq7hXZoMi64zccT

点击中间区域
呼出菜单
上一章
目录
下一章
×