符号一览¶
大写字母用于随机变量,而小写字母用于随机变量的具体值或标量函数。 小写、粗体的字母用于实数向量(即使是随机变量)。大写的粗体字母用于矩阵。
\(\doteq\) | 由定义得到的等于关系 |
\(\approx\) | 约等于 |
\(\propto\) | 正比于 |
\(\Pr \{X=x\}\) | 随机变量 \(X\) 取值为 \(x\) 的概率 |
\(X \sim p\) | 随机变量 \(X\) 满足分布 \(p(x) \doteq \Pr\{X = x\}\) |
\(\mathbb{E}[X]\) | 随机变量 \(X\) 的期望值, 也就是说 \(\mathbb{E}[X] = \sum_x p(x)x\) |
\(\arg \max_a f(a)\) | 当 \(f(a)\) 取最大值时 \(a\) 的取值 |
\(\ln (x)\) | \(x\) 的自然对数 |
\(e^x, exp(x)\) | 自然对数 \(e \approx 2.71828\) 的 \(x\) 次方;\(e^{\ln x}=x\) |
\(\mathbb{R}\) | 实数集 |
\(f: \mathcal{X} \rightarrow \mathcal{y}\) | 函数 \(f\) 表示从集合 \(\mathcal X\) 中元素到集合 \(\mathcal{y}\) 中元素的映射 |
\(\leftarrow\) | 赋值 |
\((a, b]\) | 左开右闭的实数区间 |
\(\varepsilon\) | 在 \(\varepsilon\) -贪婪策略中采取随机动作的概率 |
\(\alpha, \beta\) | 步长参数 |
\(\gamma\) | 折扣率参数 |
\(\lambda\) | 资格迹中的衰减率 |
\(\mathbb{1}_{predicate}\) | 指示函数(当 谓词 \(predicate\) 为真时 \(\mathbb{1}_{predicate} \doteq 1\), 反之为0) |
在多摇臂赌博机问题中:
\(k\) | 动作(摇臂)的数量 |
\(t\) | 离散的时间步或玩的次数 |
\(q_*(a)\) | 动作 \(a\) 的真实值(预期奖励) |
\(Q_t(a)\) | \(q_*(a)\) 在时步 \(t\) 的估计值 |
\(N_t(a)\) | 在时步 \(t\) 前动作 \(a\) 被选中的概率 |
\(H_t(a)\) | 由学习得到的、在时步 \(t\) 时选择动作 \(a\) 的偏好值 |
\(\pi_t(a)\) | 在时步 \(t\) 选择动作 \(a\) 的概率 |
\(\overline{R}_t\) | 在给定策略 \(\pi_t\) 的情况下, 预期奖励在时步 \(t\) 时的估计值 |
在马尔科夫决策过程中:
\(s, s^{\prime}\) | 状态 |
\(a\) | 动作 |
\(r\) | 奖励 |
\(\mathcal{S}\) | 所有非末状态的集合 |
\(\mathcal{S}^+\) | 所有状态的集合, 包括末状态 |
\(\mathcal{A}(s)\) | 在状态 \(s\) 下所有可行的动作的集合 |
\(\mathcal{R}\) | 所有可能奖励的集合, 为 \(\mathbb{R}\) 的有限子集 |
\(\subset\) | 含于, 例如 \(\mathcal{R} \subset \mathbb{R}\) |
\(\in\) | 属于, 例如 \(s \in \mathcal{S}\), \(r \in \mathcal{R}\) |
\(\lvert \mathcal{S} \rvert\) | 集合 \(\mathcal{S}\) 中元素的个数 |
\(t\) | 离散的时步 |
\(T, T(t)\) | 回合的最后一个时步, 或包含了时步 \(t\) 的回合的最后一步 |
\(A_t\) | 在时步 \(t\) 中所选择的动作 |
\(S_t\) | 时步 \(t\) 时的状态, 通常由 \(S_{t-1}\) 和 \(A_{t-1}\) 概率性地决定 |
\(R_t\) | 在时步 \(t\) 中的奖励, 通常由 \(S_{t-1}\) 和 \(A_{t-1}\) 概率性地决定 |
\(\pi\) | 策略(决策准则) |
\(\pi(s)\) | 在 确定性 策略 \(\pi\) 下, 在状态 \(s\) 中所采取的动作 |
\(\pi(a | s)\) | 在 概率性 策略 \(\pi\) 下, 在状态 \(s\) 中采取动作 \(a\) 的概率 |
\(G_t\) | 在时步 \(t\) 后的回报 |
\(h\) | 水平,在前瞻多看的时步(horizon, the time step one looks up to in a forward view) |
\(G_{t:t+n}, G_{t:h}\) | 从 \(t+1\) 到 \(t+n\) 或到 \(h\) (折扣的且校正的) 的n步回报 |
\(overline{G}_{t:h}\) | 从 \(t+1\) 到 \(h\) 的平坦回报(未折扣且未校正的)(5.8节) |
\(G_{t}^{\lambda}\) | \(\lambda\) -回报(12.1节) |
\(G_{t:h}^{\lambda}\) | 截断的,校正的:math:lambda -回报(12.3节) |
\(G_t^{\lambda s}, G_t^{\lambda a}\) | 估计状态或动作,价值校正的:math:lambda -回报(12.8节) |
\(p(s^{\prime}, r | s, a)\) | 从状态 \(s\) 与动作 \(a\) 起, 以 \(r\) 的奖励转移到状态 \(s^{\prime}\) 的概率 |
\(p(s^{\prime} | s, a)\) | 从状态 \(s\) 起采取动作 \(a\), 转移到状态 \(s^{\prime}\) 的概率 |
\(r(s, a)\) | 动作 \(a\) 后状态 \(s\) 的预期即时奖励 |
\(r(s, a, s^{\prime})\) | 动作 \(a\) 下从状态 \(s\) 到状态 \(s^{\prime}\) 的转移的预期即时奖励 |
\(v_\pi(s)\) | 在策略 \(\pi\) 下状态 \(s\) 的价值(预期回报) |
\(v_*(s)\) | 在最优策略下状态 \(s\) 的价值 |
\(q_\pi(s, a)\) | 在策略 \(\pi\) 下, 在状态 \(s\) 中采取动作 \(a\) 的价值 |
\(q_*(s, a)\) | 在最优策略下, 在状态 \(s\) 中采取动作 \(a\) 的价值 |
\(V, V_t\) | 状态价值函数 \(v_\pi\) 或 \(v_*\) 的表格估计值 |
\(Q, Q_t\) | 动作价值函数 \(q_\pi\) 或 \(q_*\) 的表格估计值 |
\(\overline{V}_t(s)\) | 预期的近似动作价值, 如 \(\overline{V}_{t}(s) \doteq \sum_{a} \pi(a | s) Q_{t}(s, a)\) |
\(U_t\) | 在时步 \(t\) 估计的目标 |
\(\delta_t\) | 在时步 \(t\) (随机变量)的时序差分(TD)误差(6.1节) |
\(\delta_t^s, \delta_t^a\) | TD误差的状态和行动特定形式(第12.9节) |
\(n\) | 在n步方法中,\(n\) 是自举的步骤数 |
\(d\) | 维度── \(\mathbf{w}\) 的分量数量 |
\(d^{\prime}\) | 备用维度── \(\mathrm{\theta}\) 的分量数量 |
\(\mathbf{w}, \mathbf{w}_{t}\) | 近似价值函数的权重 \(d\) 维向量 |
\(w_{i}, w_{t, i}\) | 第 \(i\) 个可学习的权重向量的组成部分 |
\(\hat{v}(s, \mathbf{w})\) | 给定权重向量 mathbf{w} 的状态 \(s\) 的近似价值 |
\(v_{\mathbf{w}}(s)\) | \(\hat{v}(s, \mathbf{w})\) 的备用表示 |
\(\hat{q}(s, a, \mathbf{w})\) | 状态-动作对 \(s,a\) 的近似价值,给定权重向量 \(\mathbf{w}\) |
\(\hat{\nabla} \hat{v}(s, \mathbf{w})\) | 关于 \(\mathbf{w}\) 的 \(\hat{v}(s, \mathbf{w})\) 的偏导数的列向量 |
\(\nabla \hat{q}(s, a, \mathbf{w})\) | 关于 \(\mathbf{w}\) 的 \(\hat{q}(s, a, \mathbf{w})\) 的偏导数的列向量 |
\(\mathbf{x}(s)\) | 在状态 \(s\) 可见的特征向量 |
\(\mathbf{x}(s, a)\) | 在状态 \(s\) 采取动作 \(a\) 时可见的特征向量 |
\(x_{i}(s), x_{i}(s, a)\) | 向量 \(\mathbf{x}(s)\) 或 \(\mathbf{x}(s, a)\) 的分量 |
\(\mathbf{x}_{t}\) | \(\mathbf{x}(S_t)\) 或 \(\mathbf{x}(S_t, A_t)\) 的简写 |
\(\mathbf{W}^{\top} \mathbf{x}\) | 向量的内积,\(\mathbf{w}^{\top} \mathbf{x} \doteq \sum_{i} w_{i} x_{i}\);比如 \(\hat{v}(s, \mathbf{w}) \doteq \mathbf{w}^{\top} \mathbf{x}(s)\) |
\(\mathbf{V}, \mathbf{V}_{t}\) | 用于学习 \(\mathbf{w}\) 的权重的次要 \(d\) 维向量(第11章) |
\(\mathbf{Z}_{t}\) | 时步 \(t\) 的资格迹 \(d\) 维向量(第12章) |
\(\mathbf{\theta}, \mathbf{\theta}_{t}\) | 目标策略的参数向量(第13章) |
\(\pi(a | s, \mathbf{\theta})\) | 在给定参数向量 \(\mathbf{\theta}\) 的状态 \(s\) 下采取动作 \(a\) 的概率 |
\(\pi_{\mathbf{\theta}}\) | 与参数 \(\mathbf{\theta}\) 对应的策略 |
\(\nabla \pi(a | s, \mathbf{\theta})\) | 关于 \(\mathbf{\theta}\) 的 \(\pi(a|s,\mathbf{\theta})\) 的偏导数的列向量 |
\(\mathbf{J}(\mathbf{\theta})\) | 策略的性能衡量指标 |
\(\nabla \mathbf{J}(\mathbf{\theta})\) | 关于 \(\mathbf{\theta}\) 的 \(\mathbf{J}(\mathbf{\theta})\) 的偏导数的列向量 |
\(h(s, a, \mathbf{\theta})\) | 选择基于 \(\mathbf{\theta}\) 的状态 \(s\) 中的动作 \(a\) 的优先指标 |
\(b(a|s)\) | 用于在了解目标策略 ;math:pi 时选择动作的行为策略 |
\(b(s)\) | 基线函数 \(b : \mathcal{S} \mapsto \mathbb{R}\) 用于策略梯度方法 |
\(b\) | MDP或搜索树的分支因子 |
\(\rho_{t : h}\) | 时步 \(t\) 到时步 \(h\) 的重要采样比率(第5.5节) |
\(\rho_{t}\) | 时间 \(t\) 的重要采样比率,\(\rho_{t} \doteq \rho_{t:t}\) |
\(r(\pi)\) | 策略 \(\pi\) 的平均回报(奖励率)(第10.3节) |
\(\overline{R}_{t}\) | 在时间 \(t\) 估计 \(r(\pi)\) |
\(\mu(s)\) | 各状态的在策略分布(第9.2节) |
\(\mathbf{\mu}\) | 所有 \(s\in\mathcal{S}\) 的 \(\mu(s)\) 的 \(|\mathcal{S}|\) 维向量 |
\(\|v\|_{\mu}^{2}\) | 价值函数 \(v\) 的 \(\mu\) 加权平方范数,即 \(\|v\|_{\mu}^{2} \doteq \sum_{s \in \mathcal{S}} \mu(s) v(s)^{2}\) |
\(\eta(s)\) | 每回合到状态 \(s\) 的预期访问次数(第199页) |
\(\Pi\) | 价值函数的投影算子(第268页) |
\(B_{\pi}\) | 价值函数的Bellman算子(第11.4节) |
\(\mathbf{A}\) | \(d \times d\) 矩阵 \(\mathbf{A} \doteq \mathbb{E}\left[\mathbf{x}_{t}\left(\mathbf{x}_{t}-\gamma \mathbf{x}_{t+1}\right)^{\top}\right]\) |
\(\mathbf{b}\) | \(d\) 维向量 \(\mathbf{b} \doteq \mathbb{E}\left[R_{t+1} \mathbf{x}_{t}\right]\) |
\(\mathbf{w}_{TD}\) | TD不动点 \(\mathbf{w}_{\mathrm{TD}} \doteq \mathbf{A}^{-1} \mathbf{b}\) 维向量,第9.4节) |
\(\mathbf{I}\) | 单位矩阵 |
\(\mathbf{P}\) | \(\pi\) 下的 \(|\mathcal{S}|\times||mathcal{S}|\) 状态转移概率矩阵 |
\(\mathbf{D}\) | 在对角线上具有 \(\mathbf{\mu}\) 的 \(|\mathcal{S}|\times||mathcal{S}|\) 对角矩阵 |
\(\mathbf{X}\) | 以 \(\mathbf{x}(s)\) 为行的 \(|\mathcal{S}| \times d\) 矩阵 |
\(\overline{\delta}_{\mathbf{w}}(s)\) | 状态 \(s\) 下 \(v_{\mathbf{w}}\) 的Bellman误差(预期TD误差)(第11.4节) |
\(\overline{\delta}_{\mathbf{w}},\mathrm{BE}\) | Bellman误差向量,包含分量 \(\overline{\delta}_{\mathbf{w}}(s)\) |
\(\overline{\mathrm{VE}}(\mathbf{w})\) | 均方值误差 \(\overline{\mathrm{VE}}(\mathbf{w}) \doteq\left\|v_{\mathbf{w}}-v_{\pi}\right\|_{\mu}^{2}\) (第9.2节) |
\(\overline{\mathrm{BE}}(\mathbf{w})\) | 均方Bellman误差 \(\overline{\mathrm{BE}}(\mathbf{w}) \doteq\|\overline{\delta}_{\mathbf{w}}\|_{\mu}^{2}\) |
\(\overline{\mathrm{PBE}}(\mathbf{w})\) | 均方投影Bellman误差 \(\overline{\mathrm{PBE}}(\mathbf{w}) \doteq\left\|\Pi \overline{\delta}_{\mathbf{w}}\right\|_{\mu}^{2}\) |
\(\overline{\mathrm{TDE}}(\mathbf{w})\) | 均方时序差分误差 \(\overline{\operatorname{TDE}}(\mathbf{w}) \doteq \mathbb{E}_{b}\left[\rho_{t} \delta_{t}^{2}\right]\) (第11.5节) |
\(\overline{\mathrm{RE}}(\mathbf{w})\) | 均方回报误差(第11.6节) |