下载掌阅APP，畅读海量书库

立即打开

畅读海量书库

扫码下载掌阅APP

主要符号表

标量

向量

矩阵

实数集

取最大值时的值

状态

动作

奖励

策略

根据确定性策略在状态选取的动作

根据随机性策略在状态选取动作的概率

折扣因子

轨迹

状态在策略下的价值

状态在策略下选取动作的价值

时刻的回报

参数对应的策略

策略的性能度量

点击中间区域
呼出菜单

购买书籍时，会优先扣除您的代金券，再扣除阅饼；当您的余额不足时，可使用微信或支付宝支付，补足差价；
连载书籍勾选自动购买下一章后，会自动扣费，已购章节不会重复扣费；
书籍购买记录请至我的—购书记录中查询

上一章

目录

下一章

×

打开