书籍目录
首页
分类
免费
排行
我的书架
1-50章
51-100章
101-101章
共101章
免费
版权信息
免费
内容提要
免费
前言
免费
资源与支持
免费
第1章 绪论
免费
1.1 为什么要学习强化学习?
免费
1.2 强化学习的应用
免费
1.3 强化学习方向概述
免费
1.4 学习本书之前的一些准备
免费
第2章 马尔可夫决策过程
免费
2.1 马尔可夫决策过程
免费
2.2 马尔可夫性质
免费
2.3 回报
2.4 状态转移矩阵
2.5 本章小结
2.6 练习题
第3章 动态规划
3.1 动态规划的编程思想
3.2 状态价值函数和动作价值函数
3.3 贝尔曼方程
3.4 策略迭代算法
3.5 价值迭代算法
3.6 本章小结
3.7 练习题
第4章 免模型预测
4.1 有模型与免模型
4.2 预测与控制
4.3 蒙特卡罗方法
4.4 时序差分方法
4.5 时序差分方法和蒙特卡罗方法的差异
4.6 n步时序差分方法
4.7 本章小结
4.8 练习题
第5章 免模型控制
5.1 Q-learning 算法
5.2 Sarsa 算法
5.3 同策略算法与异策略算法
5.4 实战:Q-learning算法
5.5 实战:Sarsa算法
5.6 本章小结
5.7 练习题
第6章 深度学习基础
6.1 强化学习与深度学习的关系
6.2 线性回归模型
6.3 梯度下降
6.4 逻辑回归模型
6.5 全连接网络
6.6 高级的神经网络模型
6.7 本章小结
6.8 练习题
×