符号一览

大写字母用于随机变量,而小写字母用于随机变量的具体值或标量函数。 小写、粗体的字母用于实数向量(即使是随机变量)。大写的粗体字母用于矩阵。

\(\doteq\) 由定义得到的等于关系
\(\approx\) 约等于
\(\propto\) 正比于
\(\Pr \{X=x\}\) 随机变量 \(X\) 取值为 \(x\) 的概率
\(X \sim p\) 随机变量 \(X\) 满足分布 \(p(x) \doteq \Pr\{X = x\}\)
\(\mathbb{E}[X]\) 随机变量 \(X\) 的期望值, 也就是说 \(\mathbb{E}[X] = \sum_x p(x)x\)
\(\arg \max_a f(a)\) \(f(a)\) 取最大值时 \(a\) 的取值
\(\ln (x)\) \(x\) 的自然对数
\(e^x, exp(x)\) 自然对数 \(e \approx 2.71828\)\(x\) 次方;\(e^{\ln x}=x\)
\(\mathbb{R}\) 实数集
\(f: \mathcal{X} \rightarrow \mathcal{y}\) 函数 \(f\) 表示从集合 \(\mathcal X\) 中元素到集合 \(\mathcal{y}\) 中元素的映射
\(\leftarrow\) 赋值
\((a, b]\) 左开右闭的实数区间
 
\(\varepsilon\) \(\varepsilon\) -贪婪策略中采取随机动作的概率
\(\alpha, \beta\) 步长参数
\(\gamma\) 折扣率参数
\(\lambda\) 资格迹中的衰减率
\(\mathbb{1}_{predicate}\) 指示函数(当 谓词 \(predicate\) 为真时 \(\mathbb{1}_{predicate} \doteq 1\), 反之为0)
 

在多摇臂赌博机问题中:

\(k\) 动作(摇臂)的数量
\(t\) 离散的时间步或玩的次数
\(q_*(a)\) 动作 \(a\) 的真实值(预期奖励)
\(Q_t(a)\) \(q_*(a)\) 在时步 \(t\) 的估计值
\(N_t(a)\) 在时步 \(t\) 前动作 \(a\) 被选中的概率
\(H_t(a)\) 由学习得到的、在时步 \(t\) 时选择动作 \(a\) 的偏好值
\(\pi_t(a)\) 在时步 \(t\) 选择动作 \(a\) 的概率
\(\overline{R}_t\) 在给定策略 \(\pi_t\) 的情况下, 预期奖励在时步 \(t\) 时的估计值
 

在马尔科夫决策过程中:

\(s, s^{\prime}\) 状态
\(a\) 动作
\(r\) 奖励
\(\mathcal{S}\) 所有非末状态的集合
\(\mathcal{S}^+\) 所有状态的集合, 包括末状态
\(\mathcal{A}(s)\) 在状态 \(s\) 下所有可行的动作的集合
\(\mathcal{R}\) 所有可能奖励的集合, 为 \(\mathbb{R}\) 的有限子集
\(\subset\) 含于, 例如 \(\mathcal{R} \subset \mathbb{R}\)
\(\in\) 属于, 例如 \(s \in \mathcal{S}\), \(r \in \mathcal{R}\)
\(\lvert \mathcal{S} \rvert\) 集合 \(\mathcal{S}\) 中元素的个数
 
\(t\) 离散的时步
\(T, T(t)\) 回合的最后一个时步, 或包含了时步 \(t\) 的回合的最后一步
\(A_t\) 在时步 \(t\) 中所选择的动作
\(S_t\) 时步 \(t\) 时的状态, 通常由 \(S_{t-1}\)\(A_{t-1}\) 概率性地决定
\(R_t\) 在时步 \(t\) 中的奖励, 通常由 \(S_{t-1}\)\(A_{t-1}\) 概率性地决定
\(\pi\) 策略(决策准则)
\(\pi(s)\) 确定性 策略 \(\pi\) 下, 在状态 \(s\) 中所采取的动作
\(\pi(a | s)\) 概率性 策略 \(\pi\) 下, 在状态 \(s\) 中采取动作 \(a\) 的概率
 
\(G_t\) 在时步 \(t\) 后的回报
\(h\) 水平,在前瞻多看的时步(horizon, the time step one looks up to in a forward view)
\(G_{t:t+n}, G_{t:h}\) \(t+1\)\(t+n\) 或到 \(h\) (折扣的且校正的) 的n步回报
\(overline{G}_{t:h}\) \(t+1\)\(h\) 的平坦回报(未折扣且未校正的)(5.8节)
\(G_{t}^{\lambda}\) \(\lambda\) -回报(12.1节)
\(G_{t:h}^{\lambda}\) 截断的,校正的:math:lambda -回报(12.3节)
\(G_t^{\lambda s}, G_t^{\lambda a}\) 估计状态或动作,价值校正的:math:lambda -回报(12.8节)
 
\(p(s^{\prime}, r | s, a)\) 从状态 \(s\) 与动作 \(a\) 起, 以 \(r\) 的奖励转移到状态 \(s^{\prime}\) 的概率
\(p(s^{\prime} | s, a)\) 从状态 \(s\) 起采取动作 \(a\), 转移到状态 \(s^{\prime}\) 的概率
\(r(s, a)\) 动作 \(a\) 后状态 \(s\) 的预期即时奖励
\(r(s, a, s^{\prime})\) 动作 \(a\) 下从状态 \(s\) 到状态 \(s^{\prime}\) 的转移的预期即时奖励
 
\(v_\pi(s)\) 在策略 \(\pi\) 下状态 \(s\) 的价值(预期回报)
\(v_*(s)\) 在最优策略下状态 \(s\) 的价值
\(q_\pi(s, a)\) 在策略 \(\pi\) 下, 在状态 \(s\) 中采取动作 \(a\) 的价值
\(q_*(s, a)\) 在最优策略下, 在状态 \(s\) 中采取动作 \(a\) 的价值
 
\(V, V_t\) 状态价值函数 \(v_\pi\)\(v_*\) 的表格估计值
\(Q, Q_t\) 动作价值函数 \(q_\pi\)\(q_*\) 的表格估计值
\(\overline{V}_t(s)\) 预期的近似动作价值, 如 \(\overline{V}_{t}(s) \doteq \sum_{a} \pi(a | s) Q_{t}(s, a)\)
\(U_t\) 在时步 \(t\) 估计的目标
\(\delta_t\) 在时步 \(t\) (随机变量)的时序差分(TD)误差(6.1节)
\(\delta_t^s, \delta_t^a\) TD误差的状态和行动特定形式(第12.9节)
\(n\) 在n步方法中,\(n\) 是自举的步骤数
 
\(d\) 维度── \(\mathbf{w}\) 的分量数量
\(d^{\prime}\) 备用维度── \(\mathrm{\theta}\) 的分量数量
\(\mathbf{w}, \mathbf{w}_{t}\) 近似价值函数的权重 \(d\) 维向量
\(w_{i}, w_{t, i}\) \(i\) 个可学习的权重向量的组成部分
\(\hat{v}(s, \mathbf{w})\) 给定权重向量 mathbf{w} 的状态 \(s\) 的近似价值
\(v_{\mathbf{w}}(s)\) \(\hat{v}(s, \mathbf{w})\) 的备用表示
\(\hat{q}(s, a, \mathbf{w})\) 状态-动作对 \(s,a\) 的近似价值,给定权重向量 \(\mathbf{w}\)
\(\hat{\nabla} \hat{v}(s, \mathbf{w})\) 关于 \(\mathbf{w}\)\(\hat{v}(s, \mathbf{w})\) 的偏导数的列向量
\(\nabla \hat{q}(s, a, \mathbf{w})\) 关于 \(\mathbf{w}\)\(\hat{q}(s, a, \mathbf{w})\) 的偏导数的列向量
 
\(\mathbf{x}(s)\) 在状态 \(s\) 可见的特征向量
\(\mathbf{x}(s, a)\) 在状态 \(s\) 采取动作 \(a\) 时可见的特征向量
\(x_{i}(s), x_{i}(s, a)\) 向量 \(\mathbf{x}(s)\)\(\mathbf{x}(s, a)\) 的分量
\(\mathbf{x}_{t}\) \(\mathbf{x}(S_t)\)\(\mathbf{x}(S_t, A_t)\) 的简写
\(\mathbf{W}^{\top} \mathbf{x}\) 向量的内积,\(\mathbf{w}^{\top} \mathbf{x} \doteq \sum_{i} w_{i} x_{i}\);比如 \(\hat{v}(s, \mathbf{w}) \doteq \mathbf{w}^{\top} \mathbf{x}(s)\)
\(\mathbf{V}, \mathbf{V}_{t}\) 用于学习 \(\mathbf{w}\) 的权重的次要 \(d\) 维向量(第11章)
\(\mathbf{Z}_{t}\) 时步 \(t\) 的资格迹 \(d\) 维向量(第12章)
 
\(\mathbf{\theta}, \mathbf{\theta}_{t}\) 目标策略的参数向量(第13章)
\(\pi(a | s, \mathbf{\theta})\) 在给定参数向量 \(\mathbf{\theta}\) 的状态 \(s\) 下采取动作 \(a\) 的概率
\(\pi_{\mathbf{\theta}}\) 与参数 \(\mathbf{\theta}\) 对应的策略
\(\nabla \pi(a | s, \mathbf{\theta})\) 关于 \(\mathbf{\theta}\)\(\pi(a|s,\mathbf{\theta})\) 的偏导数的列向量
\(\mathbf{J}(\mathbf{\theta})\) 策略的性能衡量指标
\(\nabla \mathbf{J}(\mathbf{\theta})\) 关于 \(\mathbf{\theta}\)\(\mathbf{J}(\mathbf{\theta})\) 的偏导数的列向量
\(h(s, a, \mathbf{\theta})\) 选择基于 \(\mathbf{\theta}\) 的状态 \(s\) 中的动作 \(a\) 的优先指标
 
\(b(a|s)\) 用于在了解目标策略 ;math:pi 时选择动作的行为策略
\(b(s)\) 基线函数 \(b : \mathcal{S} \mapsto \mathbb{R}\) 用于策略梯度方法
\(b\) MDP或搜索树的分支因子
\(\rho_{t : h}\) 时步 \(t\) 到时步 \(h\) 的重要采样比率(第5.5节)
\(\rho_{t}\) 时间 \(t\) 的重要采样比率,\(\rho_{t} \doteq \rho_{t:t}\)
\(r(\pi)\) 策略 \(\pi\) 的平均回报(奖励率)(第10.3节)
\(\overline{R}_{t}\) 在时间 \(t\) 估计 \(r(\pi)\)
 
\(\mu(s)\) 各状态的在策略分布(第9.2节)
\(\mathbf{\mu}\) 所有 \(s\in\mathcal{S}\)\(\mu(s)\)\(|\mathcal{S}|\) 维向量
\(\|v\|_{\mu}^{2}\) 价值函数 \(v\)\(\mu\) 加权平方范数,即 \(\|v\|_{\mu}^{2} \doteq \sum_{s \in \mathcal{S}} \mu(s) v(s)^{2}\)
\(\eta(s)\) 每回合到状态 \(s\) 的预期访问次数(第199页)
\(\Pi\) 价值函数的投影算子(第268页)
\(B_{\pi}\) 价值函数的Bellman算子(第11.4节)
 
\(\mathbf{A}\) \(d \times d\) 矩阵 \(\mathbf{A} \doteq \mathbb{E}\left[\mathbf{x}_{t}\left(\mathbf{x}_{t}-\gamma \mathbf{x}_{t+1}\right)^{\top}\right]\)
\(\mathbf{b}\) \(d\) 维向量 \(\mathbf{b} \doteq \mathbb{E}\left[R_{t+1} \mathbf{x}_{t}\right]\)
\(\mathbf{w}_{TD}\) TD不动点 \(\mathbf{w}_{\mathrm{TD}} \doteq \mathbf{A}^{-1} \mathbf{b}\) 维向量,第9.4节)
\(\mathbf{I}\) 单位矩阵
\(\mathbf{P}\) \(\pi\) 下的 \(|\mathcal{S}|\times||mathcal{S}|\) 状态转移概率矩阵
\(\mathbf{D}\) 在对角线上具有 \(\mathbf{\mu}\)\(|\mathcal{S}|\times||mathcal{S}|\) 对角矩阵
\(\mathbf{X}\) \(\mathbf{x}(s)\) 为行的 \(|\mathcal{S}| \times d\) 矩阵
 
\(\overline{\delta}_{\mathbf{w}}(s)\) 状态 \(s\)\(v_{\mathbf{w}}\) 的Bellman误差(预期TD误差)(第11.4节)
\(\overline{\delta}_{\mathbf{w}},\mathrm{BE}\) Bellman误差向量,包含分量 \(\overline{\delta}_{\mathbf{w}}(s)\)
\(\overline{\mathrm{VE}}(\mathbf{w})\) 均方值误差 \(\overline{\mathrm{VE}}(\mathbf{w}) \doteq\left\|v_{\mathbf{w}}-v_{\pi}\right\|_{\mu}^{2}\) (第9.2节)
\(\overline{\mathrm{BE}}(\mathbf{w})\) 均方Bellman误差 \(\overline{\mathrm{BE}}(\mathbf{w}) \doteq\|\overline{\delta}_{\mathbf{w}}\|_{\mu}^{2}\)
\(\overline{\mathrm{PBE}}(\mathbf{w})\) 均方投影Bellman误差 \(\overline{\mathrm{PBE}}(\mathbf{w}) \doteq\left\|\Pi \overline{\delta}_{\mathbf{w}}\right\|_{\mu}^{2}\)
\(\overline{\mathrm{TDE}}(\mathbf{w})\) 均方时序差分误差 \(\overline{\operatorname{TDE}}(\mathbf{w}) \doteq \mathbb{E}_{b}\left[\rho_{t} \delta_{t}^{2}\right]\) (第11.5节)
\(\overline{\mathrm{RE}}(\mathbf{w})\) 均方回报误差(第11.6节)