书籍目录
首页
分类
免费
排行
我的书架
1-50章
51-100章
101-127章
共127章
免费
版权信息
免费
内容提要
免费
推荐辞
免费
前言
免费
主要符号表
免费
资源与支持
免费
第1章 绪论
免费
1.1 强化学习概述
免费
1.2 序列决策概述
免费
1.3 动作空间
免费
1.4 强化学习智能体的组成部分和类型
免费
1.5 学习与规划
免费
1.6 探索和利用
免费
1.7 强化学习实验
免费
1.8 关键词
免费
1.9 习题
1.10 面试题
参考文献
第2章 马尔可夫决策过程
2.1 马尔可夫过程
2.2 马尔可夫奖励过程
2.3 马尔可夫决策过程
2.4 关键词
2.5 习题
2.6 面试题
参考文献
第3章 表格型方法
3.1 马尔可夫决策过程
3.2 Q表格
3.3 免模型预测
3.4 免模型控制
3.5 使用 Q学习解决悬崖寻路问题
3.6 关键词
3.7 习题
3.8 面试题
参考文献
第4章 策略梯度
4.1 策略梯度算法
4.2 策略梯度实现技巧
4.3 REINFORCE:蒙特卡洛策略梯度
4.4 关键词
4.5 习题
4.6 面试题
参考文献
第5章 近端策略优化
5.1 从同策略到异策略
5.2 近端策略优化
5.3 关键词
5.4 习题
5.5 面试题
×