



集合用大写字母表示。集合中的元素用小写字母表示。时间指数 t (或 τ )用上标表示(例如, s t 表示时刻 t 时的状态);智能体索引用下标表示(例如, a i 表示智能体 i 的动作)。书中最常使用的符号在下方列出,特定章节可能会使用额外的符号。
通用
实数集
∝ 成正比
x T 向量 x 的转置
X T 矩阵 X 的 转置
Pr 概率
Pr( x | y ) 给定 y 时 x 的条件概率
概率分布
p
下
x
的期望
x ~ p 根据概率分布 p 采样的 x
x ← y 给变量 x 赋值 y
训练数据集
函数
f
关于
x
的导数
▽ 梯度
〈 a , b , c ,…〉 将输入 a , b , c ,…连接成元组( a , b , c ,…)
[ x ] 1 指示函数:如果 x 为真,则返回1,否则返回0
博弈模型
I 智能体集合
i , j 智能体下标
- i 表示元组〈除了智能体 i 之外的所有智能体〉的下标
S
,
状态空间,终止状态集合
s 状态
O , O i (联合)观测空间,智能体 i 的观测空间
o , o i (联合)观测,智能体 i 的观测
A , A i (联合)动作空间,智能体 i 的动作空间
a , a i (联合)动作,智能体 i 的动作
r , r i (联合)奖励,智能体 i 的奖励
μ 初始状态分布
状态转移函数
状态转移的模拟/采样模型
,
(智能体
i
的)观测函数
ℛ,ℛ i (智能体 i 的)奖励函数
Γ s 状态 s 的标准式博弈
策略、回报、价值
Π,Π i (联合)策略空间,智能体 i 的策略空间
π , π i (联合)策略,智能体 i 的策略
π * 最优策略或均衡联合策略
H
,
历史集,全部历史集
h , h i 联合观测历史,智能体 i 的观测历史
h 包含状态、联合观测、联合动作的全部历史
从全部历史
返回联合观测历史的函数
γ 折扣因子
u , u i (智能体 i 的)折扣回报
U , U i (智能体 i 的)期望折扣回报
(多智能体)强化学习
学习算法
α 学习率
ε 探索率
智能体
i
的经验动作分布或平均策略
智能体
j
的智能体模型
BR i 智能体 i 的最佳响应动作或策略集
V
π
,
策略
π
下(智能体
i
)的状态价值函数
Q
π
,
策略
π
下(智能体
i
)的动作价值函数
V * , Q * 最优状态/动作价值函数
Value i 返回智能体 i 在标准式博弈中的均衡值
深度学习
θ 网络参数
f ( x;θ ) 输入 x 的函数 f ,参数为 θ
参数
θ
的损失函数
批量训练数据
B 批量大小,即一批中的样本数
(多智能体)深度强化学习
θ , θ i (智能体 i 的)价值函数参数
ϕ , ϕ i (智能体 i 的)策略参数
目标网络参数
,
(智能体
i
的)经验回放缓冲区
熵
z 集中式信息,例如,环境的状态