决策算法最新章节_米凯尔·J.科申德弗著

1.3.5 强化学习

强化学习（reinforcement learning）不再强调规划方法中模型已知的这一假设。相反，智能体是在与环境交互的过程中学习相关的决策策略的。设计者只需提供性能指标，由学习算法负责优化智能体的行为。强化学习中出现的一个有趣的复杂性是，行为的选择不仅直接影响智能体在实现其目标方面是否成功，而且还影响智能体对环境的了解以及识别其可以利用的问题特征的能力。

购买书籍时，会优先扣除您的代金券，再扣除阅饼；当您的余额不足时，可使用微信或支付宝支付，补足差价；
连载书籍勾选自动购买下一章后，会自动扣费，已购章节不会重复扣费；
书籍购买记录请至我的—购书记录中查询