购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

学习(learning)和规划(planning)是序列决策的两个基本问题。如图1.20所示,在强化学习中,环境初始时是未知的,智能体不知道环境如何工作,它通过不断地与环境交互,逐渐改进策略。

图1.20 学习 [3]

如图1.21所示,在规划中,环境是已知的,智能体被告知了整个环境的运作规则的详细信息。智能体能够计算出一个完美的模型,并且在不需要与环境进行任何交互的时候进行计算。智能体不需要实时地与环境交互就能知道未来环境,只需要知道当前的状态,就能够开始思考,来寻找最优解。

图1.21 规划 [3]

在图1.21所示的游戏中,规则是确定的,我们知道选择左之后环境将会产生什么变化。我们完全可以通过已知的规则,在内部模拟整个决策过程,无需与环境交互。一个常用的强化学习问题解决思路是,先学习环境如何工作,也就是了解环境工作的方式,即学习得到一个模型,然后利用这个模型进行规划。 0qaEoi2zDUWP03BJyBDMfwO9OrHqnjbzsim3NjqUOseqQ/SEjtDGG55YPZFtOKTN

点击中间区域
呼出菜单
上一章
目录
下一章
×