



标量
向量
矩阵
实数集
取最大值时
的值
状态
动作
奖励
策略
根据确定性策略
在状态
选取的动作
根据随机性策略
在状态
选取动作
的概率
折扣因子
轨迹
状态
在策略
下的价值
状态
在策略
下选取动作
的价值
时刻
的回报
参数
对应的策略
策略
的性能度量