购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.1 这是一本什么书

这是一本人人都可以读懂的书。唐代大诗人白居易写诗定稿的标准是“老妪能解”,也就是说只有连市井中的老妇人都能听懂的诗才是好诗。本书力求做到这一点。不过,真正做到“老妪能解”的程度还是有困难的。因为强化学习是集数学、工程学、计算机科学、心理学、神经科学于一身的交叉学科。力图将这门“深奥”的学科讲明白,是写作本书的目的。

本书讲的是强化学习算法,什么是强化学习算法呢,它离我们有多远?2016年和2017 年最具影响力的 AlphaGo 大胜世界围棋冠军李世石和柯洁事件,其核心算法就用到了强化学习算法。相信很多人想了解或者转行研究强化学习算法或多或少都跟这两场赛事有联系。如今,强化学习继深度学习之后,成为学术界和工业界追捧的热点。从目前的形式看,强化学习正在各行各业开花结果,前途一片大好。然而,强化学习的入门却很难,明明知道它是一座“金山”,可是由于总不能入门,只能望“金山”而兴叹了。另外,市面上关于强化学习的中文书并不多,即便有,翻开几页出现的各种专业术语,一下就把人搞懵了。本来下定决心要啃下这块硬骨头的,可是啃了几天发现,越啃越痛苦,连牙都咯掉了,肉渣还没吃到。本书下决心不给大家吃骨头,只给肉,因此本书与其他教科书有以下几个方面的不同。

第一,本书的语言风格偏口语化。因为本书的写作目的是让大家尽快入门强化学习。众所周知,学一门新的课程,最快的入门方式就是请私人家教进行一对一的训练。然而,由于各种原因,这种方式并非对每个人都现实可行。而本书,正希望通过这种口语化的方式与读者交流,尽量实现一对一的训练效果。读者们可以将这本书想象成自己的私人家教。

第二,本书不会将数学基础作为单独的章节列出来,而是在强化学习算法中用到哪些数学,就在那个章节里介绍。这样,就算是没有多少数学基础的读者也可以学习;而对于那些有数学基础的读者,通过将数学与具体的强化学习算法相结合,可以提升数学的应用能力。

第三,本书的每部分都包括理论讲解,代码讲解和直观解释三项内容。强化学习算法是应用性很强的算法,大部分读者学习强化学习算法的目的是用来解决实际问题的。一边学理论,一边写代码,可以使读者在学习的过程中,同步提升理论研究和解决问题两方面的能力。

第四,本书涵盖的内容相当丰富,几乎会涉及强化学习算法的各个方面。从最基础的强化学习算法到目前最前沿的强化学习算法都会有所涉猎。所以,本书可以说是“完全”教程。当然了,这里所谓的“完全”也只是相对的。因为,强化学习算法当前正处于快速发展中,每个月都会有新的突破。但是,强化学习的基本思想是不会那么快变化的,最新的突破都是基于这些基本的思想而来。所以,读完了本书,你再继续读最新的论文,就不会再有如读天书的感觉了。或者说,读完了本书你就可以参与到构建能改变世界的伟大算法中了。

我们再回到刚才的问题:什么是强化学习算法?

要回答这个问题,必须先回答强化学习可以解决什么问题,强化学习如何解决这些问题。 IiS0Vb3MJs12XV+El+JNoYk+BhpXptudugdo0SFdfF1bNIciRa0RBhCME7BCelpe

点击中间区域
呼出菜单
上一章
目录
下一章
×