第14章 心理学

在前面的章节中,我们仅从计算的角度讨论了各种算法。在本章中,我们从其他角度来探讨这些算法:心理学的角度以及对动物如何学习的研究。 首先讨论强化学习的思想和算法与心理学家发现的有关动物学习方法的关联,其次解释强化学习对研究动物如何学习的影响。 通过强化学习的清晰的形式化表达,将任务、回报和算法系统化,这对于理解实验数据、提出新的实验以及指出可能对实验操作和测量至关重要的因素而言,都是非常有用的。 优化长期回报是强化学习的核心,这有助于我们理解一些动物学习和行为的谜团。

强化学习与心理学理论之间的一些对应关系并不令人感到惊讶,因为强化学习的发展受到了心理学理论的启发。 然而,正如本书中所介绍的,强化学习是从人工智能研究者或工程师的角度探索理想化的情况,目的是用有效的算法解决计算问题,而不是复制或详细解释动物如何学习。 因此,我们描述的一些对应关系将在各自领域中独立出现的想法联系起来。 我们相信这些关系是特别有意义的,因为它们揭示了学习的重要计算原理,无论是通过人工系统还是自然系统进行学习。

在大多数情况下,与强化学习相对应的心理学习理论是为了解释动物,如老鼠、鸽子和兔子,如何在受控的实验室中学习而提出的。 20世纪,进行了数千个这样的实验,其中许多实验在今天仍在进行。 尽管这些实验有时候被忽视,因为它们与很多更广泛的心理学问题无关,但是这些实验揭示了动物学习的细微特性,而且往往受具体的理论问题的驱动。 随着心理学研究把焦点转移到更多的行为认知方面,即思维和推理等心理过程,动物学习实验在心理学中的作用就不如以前那么大了。 但是,这些实验使我们发现了动物中广泛使用的基本学习原理,这些原理在设计人工学习系统时不应该被忽略。 另外,我们将会看到,认知处理的某些方面很自然地与强化学习提供的计算视角相关联。

本章的最后一部分不仅包括了我们已经讨论的这些关联的参考资料,也包括了我们在论中没有涉及的一些关联关系的参考资料。 我们希望本章能够鼓励读者更深入地探讨两者的联系。在最后一节,我们还讨论了强化学习和心理学中使用的术语的关联。 强化学习中使用的许多术语和短语都是从动物学习理论中借鉴的,但这些术语和短语的计算/工程意义并不总是与它们在心理学上的含义相吻合。

14.1 预测与控制

我们在本书中描述的算法分为两大类:预测 算法和 控制 算法 [1]。 这个分类在第3章介绍的强化学习问题的解决方法中已经很自然地体现出来了。 这些类别分别对应于心理学家广泛研究的学习类别:经典(或巴甫洛夫)条件反射和工具性(或操作性)条件反射。 考虑到心理学对强化学习的影响,有这些对应关系并不足为奇,但是由于它们将来源于不同目标的思想联系起来了,所以还是很令人惊讶的。

本书中介绍的预测算法估计的值取决于智能体所处环境的特征如何在未来展开。 特别地,我们专注于估计智能体与环境交互时期望获得的回报。 从这个角度来看,预测算法是一种 策略评估算法,它们是策略改进算法中不可或缺的组成部分。 但预测算法不限于预测未来的收益,它们可以预测环境的任何特征(例如,参见 Modayil、 White和 Sutton,2014)。 预测算法与经典条件反射之间的关联源于它们的共同特性,即预测将会到来的外部刺激,无论这些刺激是否有收益(或惩罚)。

工具性(或者操作性)条件反射实验的情况则不同。 这种实验一般被设置为根据动物的表现决定给动物它们喜欢的东西(收益)或者不喜欢的东西(惩罚)动物会逐渐倾向于增加产生收益的行为,而降低导致惩罚的动作。 在工具性条件反射中,强化刺激信号被认为是 偶发的 影响动物的行为, 而在经典条件反射中则不是(尽管在经典条件反射实验中也很难完全消除所有的行为偶发性的影响)。 工具性条件反射实验类似于我们在第1章中简单讨论过的受 Thorndike“效应定律”(Law of Effect)启的实验。 控制 是这种学习形式的核心,它与强化学习中的策略改进算法的做法相对应。

从预测的角度思考经典条件反射,从控制的角度考虑工具性条件反射,是将强化学习的计算视角与动物学习联系起来的一个起点,但实际的情况比这更复杂。 经典条件反射一般不仅仅是预测,它也会涉及动作,因此也可以将它看作一种控制模式,有时被称为 巴甫洛夫控制。 更进一步,经典条件反射和工具性条件反射可能会相互交叉,在大多数实验情况下两种学习模式可能都存在。 尽管存在这些复杂性,但将经典条件反射/工具性条件反射与预测/控制分别对应是将强化学习与动物学习联系起来的一个方便的初步近似。

[1]对我们来说,“控制”一词的含义与它在动物学习理论中的含义是不同的。 在动物学习理论中,其意思是环境控制智能体,而不是反过来。参见本章结尾处的术语说明。

在心理学中,术语“强化”用于描述经典条件反射和工具性条件反射中的学习。 最初只是指加强某种行为模式,现在它通常也被用来指对某种行为模式的削弱。 引起动物行为改变的刺激被称为强化剂,无论它是否依赖于动物先前的行为。 在本章最后,我们将更详细地讨论这个术语,以及它与机器学习中使用的术语之间的关系。

14.2 经典条件反射

俄罗斯著名生理学家伊凡·巴甫洛夫在研究消化系统活动时发现,动物对某些特定刺激因素的先天反应可以被其他无关的因素所激发。 他以狗作为实验对象,并对它们进行手术以便于准确测量其唾液反射的强度。 在他记录的一个实验中,狗只会在给其提供食物约5秒之后的几秒内分泌大约6滴唾液,而在其余时间内不产生唾液。 然而,如果在给狗食物前的较短时间内给予它另一种与食物无关的刺激, 如节拍器的声音,经过多次重复实验后,当狗听到节拍器的声音后,也会产生对食物一样的唾液反应。 “唾液腺的分泌功能就这样被声音的刺激激活了,尽管这是与食物完全不同的刺激”(Pavlov,1927,第22页), 巴甫洛夫这样总结这一发现的意义:

显然,在自然条件下,正常的动物不仅要对自身直接有利或有害的刺激做出必要的反应, 而且还要对其他物理或化学介质如声波、光线等做出反应,尽管这些信号本身只是提示刺激的迫近。 就像正在捕食野兽的身影和吼叫并不会对其他小动物造成实质性的伤害,真正的危险隐藏在它的牙齿和利爪中(Pavlov,1927,第14页)。

这种将新的刺激与先天的反射联系在一起的方式被称为经典条件反射或巴甫洛夫反射。 巴甫洛夫(确切地说是他的译者)将先天反应(如前述的分泌唾液)称为“无条件反射”(unconditioned response,UR), 其天然的刺激因素(如食物)称为“无条件刺激”(unconditioned stimuli,US)。 同时,他将由预先指定刺激所触发的反射(同样是分泌唾液)称为“条件反射”(conditioned response CR), 而在先天条件下不会引起强烈反应的中性刺激(如节拍器的声音)则被称为“条件刺激”(conditioned stimulu,CS), 在经过反复的训练之后,动物会认为条件刺激是无条件刺激的预示,因此会对条件刺激产生条件反射。 这些术语仍然用于描述传统的条件反射实验(更确切地说应该是“条件制约的”和“无条件制约的”,而不是条件的和无条件的)。 由于US强化了CR对CS的反应,因此我们将US称为强化剂。

../../_images/delay_conditioning_trace_conditioning.png

右图显示了条件反射实验中的两种实现方式,分别为 延迟条件反射痕迹条件反射。 在延迟条件反射中,我们将CS产生与US产生之间的时间间隔称为刺激间隔(interstimulus interval ISI) ,CS贯穿了整个刺激间隔(在通常情况下,US和CS同时结束,如右图所示)。 而在痕迹条件反射中,Us在CS结束后才开始产生,而从CS结束到US产生的时间间隔被称为痕迹间隔。

巴甫洛夫的狗在听到节拍器声音后分泌唾液只是经典条件反射的一个例子, 人们在多种动物的不同反射系统中,都对这种现象进行了深入的研究。 无条件反射往往是动物对某种情况的准备措施,如狗分泌唾液,或者是对某种情况的防御措施, 例如在眼睛受到刺激时会进行眨眼反射,在看到捕食者时动物的身躯会变僵硬等。 在一系列的实验中,动物逐渐学习到,CS的产生通常预示着US的产生, 因此动物就会根据Cs产生CR来面对之后到来的US进行准备或防御工作一些CR与UR类似, 但是往往产生时间更早,并且提高效率的方式有所不同。如在一个以家兔为对象的深入实验中, 在声音刺激(CS)后向家兔眼睛中吹气(US),家兔会产生反射,其眼内的瞬膜会闭合来保护自己的眼睛不受到伤害(UR)。 在多次训练之后,声音刺激会触发瞬膜闭合的条件反射,该反射最初发生在向家兔眼睛吹气之前,但是最终会在最有可能吹气的时间点产生闭合反射。 这个CR通过对吹气时间的预期进行同步启动,相较于对US简单的闭合反应,它更能够起到保护作用。 通过学习刺激之间的预测关系来预测事件发生的能力对于动物是非常有益的,这也在动物世界中广泛存在。

14.2.1 阻塞与高级条件反射

我们可以在实验中观察到经典条件反射的许多有趣特性。 除了CR的预期性质之外,在经典条件反射模型的发展中还有两个显著的特点:阻塞和高级条件反射。 当一个潜在的CS与之前曾用于激发动物产生该CR的另一个CS一起呈现时,若动物未能学习到该CR,则产生阻塞。 如,在家兔瞬膜闭合反射阻塞实验的第一阶段中,家兔首先被声音(CS)以及向眼中吹气(US)所刺激。 实验的第二阶段包括一个额外的训练,在这个训练中增加了新的刺激因素, 例如灯光,与声音一同组成了声音/光的复合条件刺激,在这个条件刺激之后,依然向家兔眼中吹气,作为无条件刺激。 在实验的第三个阶段,只用灯光作为CS来对家兔进行条件刺激,发现家兔很少或几乎没有产生瞬膜闭合的条件反射。 对光刺激的条件反射学习被之前对声音的条件反射学习所 阻塞[2]。 实验中阻塞的结果挑战了条件反射的形成只取决于简单的时间接近性这一结论,即产生条件反射的充分必要条件是US频繁地紧随在CS后面。 在下一节我门将讲述Rescorla–Wagner模型(Rescorla and Wagner,1972),该模型对阻塞提出了一种很有影响力的解释。

如果我们将之前用作条件反射的CS作为另外一个中性的刺激因素的US进行条件作用时,则会形成高级条件反射。 巴甫洛夫曾经描述过这样一个实验:他的助手首先使一只狗对节拍器的声音产生分泌唾液的条件反射。 在形成这一阶段的条件反射之后,他进行了一系列的实验,将一个黑色的方块放置在狗的视线内, 然后跟着产生节拍器的声音,不过在放置黑色方块的时候并不给狗提供食物。 起初,狗对这个黑色方块表现出漠不关心的态度,但是在仅10次实验后,狗在看到这个黑色方块后就开始分泌唾液,尽管在这个过程中并没有食物的出现。 在这个实验中,黑色方块为CS,节拍器的声音作为US,激发了狗对CS的条件反射。这就是次级条件反射。 同理,如果黑色方块被当作US去进一步建立狗对其他CS的条件反射,这就被称为三级条件反射,依此类推。 但在实际中,高级条件反射较难实现,特别是在次级以上的情况下。 部分原因是在高级的条件作用实验中,高级的强化刺激后面没有原始US的作用,使其失去了强化的效果。 但是在适当的条件下,例如,将一级条件作用实验与高级条件作用实验相结合, 或给予实验对象通用的激励刺激时,次级条件反射以上的高级条件反射是可以表现出来的。 正如我们下面将要讲述的 TD条件反射模型,使用了自我引导的思想,这也是我们方法的核心, 通过纳入具有预期特性的CR和高级条件反射,它扩展了 Rescorla-Wagner模型对于阻塞的描述。

高级工具性条件反射也会发生。经过长期进化,动物自身会具有本能的趋利避害的强化过程,我们称这样的强化过程为初级强化。 而能够一致性地预测初级强化过程的刺激物则被称为强化剂。 依此类推,若某种刺激物预示着强化剂的出现,则称其为 次级强化剂 或者更普遍地称为 高级强化剂或者条件强化剂 ── 当被预示的强化刺激本身为次级强化剂或者更高级的强化剂时,后面的术语更加准确。 条件强化剂会引发一个 条件强化 过程:即条件收益或条件惩罚。 条件强化与初级强化一样,增加了动物采用会获得条件收益的行为的倾向, 减少了动物采用会导致条件惩罚行为的倾向(见本章末对我们使用的术语与心理学术语区别的注释)。

由此看来,条件强化是一个关键现象,例如,为什么我们要努力工作来获得金钱这个强化剂,它的价值完全来自于人们对拥有金钱后的预期。 在13.5节描述的“行动器评判器”方法中(同样在15.7节和15.8节里讨论过)评判器使用TD方法来评估一个行动器的策略, 它所估计的价值给行动器提供了条件强化,使得行动器可以据此来改进它的策略。 这种对于高级工具性条件反射的模拟有助于解决1.7节提到的功劳分配问题。 因为当基础的收益信号被延迟时,评判器会给行动器提供每个时刻的强化。 我们将在14.4节中进一步讨论这个问题。

[2]与控制组进行对照实验是十分有必要的,这可以充分说明之前声音的条件作用阻塞了动物对光照刺激的学习。 在对照组的实验中,动物没有接受声音的条件作用,对光照条件的学习没有受到阻塞。 Moore和 Schmajuk(2008)对这个实验做出了充分的说明。

14.2.2 Rescorla-Wagner模型

Rescorla和Wagner创建这个模型的主要目的是解决阻塞问题。 Rescorla-Wagner-模型的核心思想是动物只有在事件违背其预期时才会学习, 换句话说就是当动物感到惊讶时(尽管不一定意味着任何有 意识的 预期与情绪)。 我们首先使用 Rescorla和 Wagner自己的术语和符号来描述一下他们的模型,然后再使用我们在讲述TD模型时使用的术语和符号。

Rescorla和 Wagner是这样描述他们的模型的。 该模型会调整复合CS中每个子刺激物的“关联强度”,关联强度是表示相应子刺激物预测一个US出现的强度和准确程度的数值。 当使用一个由多种刺激物组成的复合CS进行经典条件反射的实验时,每种子刺激物的关联强度不仅仅取决于自身, 还在某种程度上取决于整个复合CS的关联强度,即“聚合关联强度”。

Rescorla和Wagners假设了一个复合CS AX,它由刺激A和X组成,其中动物可能已经经历过刺激A,但是没有经历过刺激X。 令 \(V_{A}\)\(V_{X}\)\(V_{AX}\) 分别表示刺激物A,X以及复合刺激物AX的关联强度。 假设在某个实验中,复合CS AX作用于实验对象后,紧接着用US对实验对象进行刺激, 这里我们将US标注为刺激物Y。则复合刺激CS中每个部分的关联强度变化的公式如下:

\[\begin{split}\begin{array}{l}{ \Delta V_{A}=\alpha_{A} \beta_{Y}\left(R_{Y}-V_{AX}\right)} \\ {\Delta V_{X}=\alpha_{X} \beta_{Y}\left(R_{Y}-V_{AX}\right) }\end{array}\end{split}\]

其中,\(\alpha_{A} \beta_{Y}\)\(\alpha_{X} \beta_{Y}\) 是步长参数, 它们取决于US以及CS的各个组成部分,\(R_{Y}\) 是US Y可以支持的关联强度渐近水平 (Rescorla和 Wagner在这里用 \(\lambda\) 来代替 \(R\), 但是在这里我们依然使用 \(R\) 以避免混淆,因为我们通常认为 \(R\) 表示收益信号的大小。 但需要说明的是,US在经典条件反射中不一定是收益或者惩罚)。 Hescorla-Wagner模型的一个重要假设是认为聚合关联强度 \(V_{AX}\)\(V_{A}+V_{X}\) 是相等的。 而由这些 \(\Delta s\) 改变的关联强度则会成为一轮试验时的初始关联强度。

出于完整性考虑,模型还需要一个反应生成机制这个机制能够将 \(V\) 的值映射到 CR 中。 由于这种映射可能会取决于实验中的各种细节,Rescorla 和 Wagner 并没有详细说明这种映射关系, 仅仅简单地假定 \(V\) 的值越大,越有可能产生 CR,若 \(V\) 的值为负数,则不会产生任何 CR。

Rescorla-Wagner模型考虑了如何获得CR,这在一定程度上解释了阻塞的产生。 只要复合刺激物的聚合关联强度 \(V_{AX}\) 低于US Y所支持的关联强度渐近水平 \(R_{Y}\),则预测误差 \(R_{Y}-V_{AX}\)\(V_{X}\) 持续增加, 直到聚合关联强度 \(V_{AX}\)\(R_{Y}\) 相等为止,此时,子刺激物的关联水平不再变化(除非US变)。 若动物已经对某种复合CS产生条件反射,那么再向这种复合CS中添加新的刺激物形成增强的CS, 但是由于预测误差的值已经被减小到0或极低的值,因此增强的CS在被进一步的条件作用时,新添加刺激物的关联强度就会增加很少或者完全不增加。 因为之前的CS已经可以几乎完美地预测出US的出现,所以新的刺激物出现所引起的误差或意外就变得很小,这就表明之前的知识阻塞了对新刺激物的学习。

为了从 Rescorla-Wagner 模型过渡到经典条件反射TD模型(我们称之为TD模型),我们首先根据本书中使用的概念来重塑这个模型。 具体而言,将用于学习线性函数逼近(9.4节)的符号匹配到这个模型中, 并且我们认为条件作用的过程是一种在复合CS的基础上对“US的大小”的预测学习实验,US Y的大小就是 Rescorla-Wagner 模型在上面给出的 \(R_{Y}\)。 同时,我们还要引入一些状态。因为 Rescorla-Wagner-模型是一个 试验层面 的模型, 也就是说它通过连续不断地试验来确定关联强度的变化而不考虑两个试验之间发生的任何细节变化。 在讲述完整个TD模型之前,无须考虑状态在一次试验中是如何变化的。我们现在只需要把状态看成一种标记方法就可以了,它标记了试验中的复合CS的组成。

因此,我们假定试验的类型或者状态 \(s\) 由一个实数特征向量 \(\mathbf{x}(s)=\left(x_{1}(s), x_{2}(s), \ldots, x_{d}(s)\right)^{\top}\) 描述, 其中,如果复合CS第 \(i\) 个组成成分 \(CS_i\) 在一次试验中存在,则 \(x_{i}(s)=1\) ,否则为0。 设 \(d\) 维的关联强度向量为 \(mathbf{w}\),则状态 \(s\) 的聚合关联强度为

(1)\[\hat{v}(s, \mathbf{w})=\mathbf{w}^{\top} \mathbf{x}(s)\]

这与强化学习中的 价值估计 相对应,我们将其视为对 US的预测

现在,我们暂时让 \(t\) 表示完整试验的总数,而不是它的通常含义时刻(当我们讲述下面的TD模型时,我们依然使用t的通常含义)。 同时,\(S+t\) 是对应于试验 \(t\) 的状态。 条件作用试验 \(t\) 按照如下公式将关联强度向量 \(\mathbf{w}_{t}\) 更新为 \(\mathbf{w}_{t+1}\)

(2)\[\mathbf{w}_{t+1}=\mathbf{w}_{t}+\alpha \delta_{t} \mathbf{x}\left(S_{t}\right)\]

其中,\(\alpha\) 是步长参数,因为我们正在描述 Rescorla-Wagner 模型,所以这里 \(\delta_{t}\)预测误差

(3)\[\delta_{t}=R_{t}-\hat{v}\left(S_{t}, \mathbf{w}_{t}\right)\]

\(R_{t}\) 是试验 \(t\) 的预测目标,即 US 的大小,用 Rescorla 和 Wagner 的话来说就是 US 在试验中可以支持的关联强度。 我们可以注意到,由于式(14.2)中存在因子 \(\mathbf{x}(S_{t})\),所以在复合CS中,只有在试验中出现的子刺激物的关联强度才会在一次试验后被调整。 我们可以将预测误差视为对意外程度的度量,而聚合关联强度可以被视为动物的某种期望值,当它不符合目标 US 强度时就意味着动物的期望被违背了。

从机器学习的角度来看, Rescorla-Wagner 模型是一个基于误差纠正的监督学习模型。 它本质上与最小均方(LMS)或 Widrow-Hoff(Widrow 和 Hoff, 1960)学习规则一样, 通过调整权重使得误差的均方差尽可能接近于0,在这个模型中,权重就是关联强度。 这种“曲线拟合”或者回归算法被广泛地应用于工程和科学应用当中(参见9.4节) [3]

Rescorla-Wagner 模型在动物学习理论的历史上是非常有影响力的,因为它表明,“机械”理论可以解释关于阻塞的主要事实,而不用诉诸于更复杂的认知学理论。 例如当动物已经明确感知到另外一种子刺激物出现时,它会根据其之前的短期记忆来评估刺激物与US之间的预测关系。 Rescorla-Wagner 模型表明了条件反射的连续性理论(即刺激的时间连续性是学习的充分必要条件)经过简单的调整可以用来解释阻塞现象(Moore and Schmajuk, 2008)。

Rescorla-Wagner 模型对阻塞现象以及条件反射的其他特征做出了简单的解释,但是这并不是一个针对条件反射最完整或最好的模型。 对于目前所观察到的效应也有许多不同的理论给出了解释,并且为了理解经典条件反射的许多微妙之处,相关方面仍在不断发展。 我们在下面即将讲解的TD模型,虽然也不是最好或最完整的条件反射模型,但它扩展了 Rescorla-Wagner 模型, 对试验内和试验间的刺激时序关系对学习效果的影响做出了解释,同时也解释了高级条件反射可能的出现原因。

[3]LMS 规则和 Rescorl-Wagner 模型的唯一区别是,对于 LMS,输入向量 \(\mathbf{x}_{t}\) 可以由任意多的实数组成, 并且 \(\alpha\) 不依赖于输入向量以及刺激物的特性(至少在最简单的 LMS 规则中是这样的)。

14.2.3 TD模型

与 Rescorla-Wagner 相反,TD模型不是一个试验层面的模型,而是一个 实时 模型。 在 Rescorla-Wagner 模型中,\(t\) 每增加1则表示经过了一个完整的条件反射试验,因此该模型不适合对试验进程中发生的细节进行描述。 在每次试验中,动物可能会经历各种在特定时刻产生并持续特定时长的刺激,这些时间关系会对动物的学习效果产生显著的影响。 同时, Rescorla-Wagner 模型也没有考虑高级条件反射的机制,但是对于TD模型来说,高级条件反射是TD模型的核心思想——自举思想的自然结果。

我们从 Rescorla-Wagner 模型的结构开始讲述TD模型,但是从现在开始 \(t\) 表示试验中或两次试验之间的时刻,而不是一次完成的试验。 我们将 \(t\)\(t+1\) 之间的时间视为一个很小的时间间隔,例如 0.01 秒,将一次试验视为一个状态序列,每个状态对应于一个时刻。 因此,每个 \(t\) 对应的状态表示了在 \(t\) 这个时刻的刺激物的各种细节,而不仅仅是在一次试验中CS各种组成部分出现的标记。 实际上,我们可以完全抛弃以一次试验为单位的想法。从动物的视角来看,动物与其所处环境之间的交互是连续的,一次试验仅仅是这种连续体验的一个片段。 按照我们对智能体与其所处环境交互的观点,假设动物正在经历一系列无限的状态 \(s\),每个状态由一个特征向量 \(mathbf{x}(s)\) 表示。 这也就是说,我们可以将多次试验视为一个大的试验中的若干时间片段,刺激模式不断在这些时间片段中重复,这样做往往十分方便。

状态特征不仅可以描述动物所经历的外部刺激,还可以描述外部刺激在动物大脑中产生的神经活动模式, 而这些模式是历史相关的,这意味着可以通过一系列外部刺激来形成持久的神经活动模式。 当然,我们并不知道这些模式的具体内容是什么,但是诸如TD模型这样的实时模型可以让我们探究各种关于外部刺激的内部表征的学习假说所呈现的结果。 综上所述,TD模型并不会确定任何一种特定的状态刺激表示。此外,由于TD模型包含了跨越不同刺激时间间隔的折扣和资格迹, 因此,该模型还可以让我们探究折扣和资格迹是如何与刺激物的表示进行交互的,这些交互可以用于预测经典条件反射试验的结果。

下面我们来描述一些与TD模型一起使用的状态表示及其含义,但是我们暂且还不知道状态表示的具体内容, 因此我们假设每个状态 \(s\) 都是由一个特征向量 \(\mathbf{x}(s)=\left(x_{1}(s), x_{2}(s), \ldots, x_{n}(s)\right)^{\top}\) 来表示的。 那么与状态 \(s\) 对应的聚合关联强度和 Rescorla Wagner 相同,都由式(14.1)给出。 但是TD模型对于关联强度向量 \(\mathbf{w}\) 的更新方式是不同的。由于参数 \(t\) 目前表示的是一个时刻而不是一次完整的试验,因此TD模型根据如下公式进行更新

(4)\[\mathbf{w}_{t+1}=\mathbf{w}_{t}+\alpha \delta_{t} \mathbf{z}_{t}\]

上式将 Rescorla-Wagner 模型更新公式(14.2)中的 \(\mathbf{x}_t(S_t)\) 替换为 \(\mathbf{z}_t\)\(\mathbf{z}_t\) 是一个资格迹向量。 同时,这里的 \(\delta_{t}\) 与式(14.3)中的不同,其代表TD误差。

(5)\[\delta_{t}=R_{t+1}+\gamma \hat{v}\left(S_{t+1}, \mathbf{w}_{t}\right)-\hat{v}\left(S_{t}, \mathbf{w}_{t}\right)\]

其中, \(\gamma\) 是折扣系数(介于0和1之间),\(R_t\) 是在 \(t\) 时刻的预测目标, \(\hat{v}\left(S_{t+1}, \mathbf{w}_{t}\right)\)\(\hat{v}\left(S_{t}, \mathbf{w}_{t}\right)\) 是在 \(t+1\) 时刻与 \(t\) 时刻对应的聚合关联强度,如式(14.1)中所定义的。

资格迹向量 \(\mathbf{z}_t\) 的每个分量 \(i\) 根据特征向量 \(x_i(S_t)\) 分量 \(\mathbf{x}(S_t)\) 进行增加或减少,其余的资格迹向量根据系数 \(\gamma\lambda\) 进行衰减

(6)\[\mathbf{z}_{t+1}=\gamma \lambda \mathbf{z}_{t}+\mathbf{x}\left(S_{t}\right)\]

这里的 \(\lambda\) 是资格迹的衰减系数。

这里注意,如果 \(\gamma=0\),那么TD模型就会退化为 Rescorla-Wagner 模型, 但是不同之处在于 \(t\) 的含义(在 Rescorla-Wagner 模型中表示一次试验,在TD模型中表示某个时刻)。 同时,在TD模型中,预测目标 \(R\) 要多出一步TD模型相当于线性函数逼近(第12章)中半梯度 \(TD(\lambda)\) 算法的后向视图, 但区别在于当使用TD算法学习价值函数来进行策略改进时,\(R_t\) 不必是收益信号。