购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

符号总览

集合用大写字母表示。集合中的元素用小写字母表示。时间指数 t (或 τ )用上标表示(例如, s t 表示时刻 t 时的状态);智能体索引用下标表示(例如, a i 表示智能体 i 的动作)。书中最常使用的符号在下方列出,特定章节可能会使用额外的符号。

通用

实数集

∝        成正比

x T 向量 x 的转置

X T 矩阵 X 转置

Pr        概率

Pr( x | y )    给定 y x 的条件概率

概率分布 p x 的期望

x p 根据概率分布 p 采样的 x

x y 给变量 x 赋值 y

训练数据集

函数 f 关于 x 的导数

▽        梯度

a b c ,…〉 将输入 a b c ,…连接成元组( a b c ,…)

x 1 指示函数:如果 x 为真,则返回1,否则返回0

博弈模型

I 智能体集合

i j 智能体下标

- i 表示元组〈除了智能体 i 之外的所有智能体〉的下标

S 状态空间,终止状态集合

s 状态

O O i (联合)观测空间,智能体 i 的观测空间

o o i (联合)观测,智能体 i 的观测

A A i (联合)动作空间,智能体 i 的动作空间

a a i (联合)动作,智能体 i 的动作

r r i (联合)奖励,智能体 i 的奖励

μ 初始状态分布

状态转移函数

状态转移的模拟/采样模型

(智能体 i 的)观测函数

ℛ,ℛ i (智能体 i 的)奖励函数

Γ s 状态 s 的标准式博弈

策略、回报、价值

Π,Π i (联合)策略空间,智能体 i 的策略空间

π π i (联合)策略,智能体 i 的策略

π * 最优策略或均衡联合策略

H 历史集,全部历史集

h h i 联合观测历史,智能体 i 的观测历史

h 包含状态、联合观测、联合动作的全部历史

从全部历史 返回联合观测历史的函数

γ 折扣因子

u u i (智能体 i 的)折扣回报

U U i (智能体 i 的)期望折扣回报

(多智能体)强化学习

学习算法

α 学习率

ε 探索率

智能体 i 的经验动作分布或平均策略

智能体 j 的智能体模型

BR i 智能体 i 的最佳响应动作或策略集

V π 策略 π 下(智能体 i )的状态价值函数

Q π 策略 π 下(智能体 i )的动作价值函数

V * Q * 最优状态/动作价值函数

Value i 返回智能体 i 在标准式博弈中的均衡值

深度学习

θ 网络参数

f x;θ )   输入 x 的函数 f ,参数为 θ

参数 θ 的损失函数

批量训练数据

B 批量大小,即一批中的样本数

(多智能体)深度强化学习

θ θ i (智能体 i 的)价值函数参数

ϕ ϕ i (智能体 i 的)策略参数

目标网络参数

(智能体 i 的)经验回放缓冲区

z 集中式信息,例如,环境的状态 H6FNC6kRMnM0zuayYdSISYNykGwMRu6UN2kyIcC4BB/YEBIAE9LcBwaqEgVd+mfN

点击中间区域
呼出菜单
上一章
目录
下一章
×

打开