购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

主要符号表

标量

向量

矩阵

实数集

取最大值时 的值

状态

动作

奖励

策略

根据确定性策略 在状态 选取的动作

根据随机性策略 在状态 选取动作 的概率

折扣因子

轨迹

状态 在策略 下的价值

状态 在策略 下选取动作 的价值

时刻 的回报

参数 对应的策略

策略 的性能度量 VMJhbxDcpnOe3bE34hmF/rqXo2HC4Li570rrYswjL2q4AKH04y2cvLSDvpJ3N1p0

点击中间区域
呼出菜单
上一章
目录
下一章
×

打开