第14章 心理学

在前面的章节中,我们仅从计算的角度讨论了各种算法。在本章中,我们从其他角度来探讨这些算法:心理学的角度以及对动物如何学习的研究。 首先讨论强化学习的思想和算法与心理学家发现的有关动物学习方法的关联,其次解释强化学习对研究动物如何学习的影响。 通过强化学习的清晰的形式化表达,将任务、回报和算法系统化,这对于理解实验数据、提出新的实验以及指出可能对实验操作和测量至关重要的因素而言,都是非常有用的。 优化长期回报是强化学习的核心,这有助于我们理解一些动物学习和行为的谜团。

强化学习与心理学理论之间的一些对应关系并不令人感到惊讶,因为强化学习的发展受到了心理学理论的启发。 然而,正如本书中所介绍的,强化学习是从人工智能研究者或工程师的角度探索理想化的情况,目的是用有效的算法解决计算问题,而不是复制或详细解释动物如何学习。 因此,我们描述的一些对应关系将在各自领域中独立出现的想法联系起来。 我们相信这些关系是特别有意义的,因为它们揭示了学习的重要计算原理,无论是通过人工系统还是自然系统进行学习。

在大多数情况下,与强化学习相对应的心理学习理论是为了解释动物,如老鼠、鸽子和兔子,如何在受控的实验室中学习而提出的。 20世纪,进行了数千个这样的实验,其中许多实验在今天仍在进行。 尽管这些实验有时候被忽视,因为它们与很多更广泛的心理学问题无关,但是这些实验揭示了动物学习的细微特性,而且往往受具体的理论问题的驱动。 随着心理学研究把焦点转移到更多的行为认知方面,即思维和推理等心理过程,动物学习实验在心理学中的作用就不如以前那么大了。 但是,这些实验使我们发现了动物中广泛使用的基本学习原理,这些原理在设计人工学习系统时不应该被忽略。 另外,我们将会看到,认知处理的某些方面很自然地与强化学习提供的计算视角相关联。

本章的最后一部分不仅包括了我们已经讨论的这些关联的参考资料,也包括了我们在论中没有涉及的一些关联关系的参考资料。 我们希望本章能够鼓励读者更深入地探讨两者的联系。在最后一节,我们还讨论了强化学习和心理学中使用的术语的关联。 强化学习中使用的许多术语和短语都是从动物学习理论中借鉴的,但这些术语和短语的计算/工程意义并不总是与它们在心理学上的含义相吻合。

14.1 预测与控制

我们在本书中描述的算法分为两大类:预测 算法和 控制 算法 [1]。 这个分类在第3章介绍的强化学习问题的解决方法中已经很自然地体现出来了。 这些类别分别对应于心理学家广泛研究的学习类别:经典(或巴甫洛夫)条件反射和工具性(或操作性)条件反射。 考虑到心理学对强化学习的影响,有这些对应关系并不足为奇,但是由于它们将来源于不同目标的思想联系起来了,所以还是很令人惊讶的。

本书中介绍的预测算法估计的值取决于智能体所处环境的特征如何在未来展开。 特别地,我们专注于估计智能体与环境交互时期望获得的回报。 从这个角度来看,预测算法是一种 策略评估算法,它们是策略改进算法中不可或缺的组成部分。 但预测算法不限于预测未来的收益,它们可以预测环境的任何特征(例如,参见 Modayil、 White和 Sutton,2014)。 预测算法与经典条件反射之间的关联源于它们的共同特性,即预测将会到来的外部刺激,无论这些刺激是否有收益(或惩罚)。

工具性(或者操作性)条件反射实验的情况则不同。 这种实验一般被设置为根据动物的表现决定给动物它们喜欢的东西(收益)或者不喜欢的东西(惩罚)动物会逐渐倾向于增加产生收益的行为,而降低导致惩罚的动作。 在工具性条件反射中,强化刺激信号被认为是 偶发的 影响动物的行为, 而在经典条件反射中则不是(尽管在经典条件反射实验中也很难完全消除所有的行为偶发性的影响)。 工具性条件反射实验类似于我们在第1章中简单讨论过的受 Thorndike“效应定律”(Law of Effect)启的实验。 控制 是这种学习形式的核心,它与强化学习中的策略改进算法的做法相对应。

从预测的角度思考经典条件反射,从控制的角度考虑工具性条件反射,是将强化学习的计算视角与动物学习联系起来的一个起点,但实际的情况比这更复杂。 经典条件反射一般不仅仅是预测,它也会涉及动作,因此也可以将它看作一种控制模式,有时被称为 巴甫洛夫控制。 更进一步,经典条件反射和工具性条件反射可能会相互交叉,在大多数实验情况下两种学习模式可能都存在。 尽管存在这些复杂性,但将经典条件反射/工具性条件反射与预测/控制分别对应是将强化学习与动物学习联系起来的一个方便的初步近似。

[1]对我们来说,“控制”一词的含义与它在动物学习理论中的含义是不同的。 在动物学习理论中,其意思是环境控制智能体,而不是反过来。参见本章结尾处的术语说明。

在心理学中,术语“强化”用于描述经典条件反射和工具性条件反射中的学习。 最初只是指加强某种行为模式,现在它通常也被用来指对某种行为模式的削弱。 引起动物行为改变的刺激被称为强化剂,无论它是否依赖于动物先前的行为。 在本章最后,我们将更详细地讨论这个术语,以及它与机器学习中使用的术语之间的关系。

14.2 经典条件反射

俄罗斯著名生理学家伊凡·巴甫洛夫在研究消化系统活动时发现,动物对某些特定刺激因素的先天反应可以被其他无关的因素所激发。 他以狗作为实验对象,并对它们进行手术以便于准确测量其唾液反射的强度。 在他记录的一个实验中,狗只会在给其提供食物约5秒之后的几秒内分泌大约6滴唾液,而在其余时间内不产生唾液。 然而,如果在给狗食物前的较短时间内给予它另一种与食物无关的刺激, 如节拍器的声音,经过多次重复实验后,当狗听到节拍器的声音后,也会产生对食物一样的唾液反应。 “唾液腺的分泌功能就这样被声音的刺激激活了,尽管这是与食物完全不同的刺激”(Pavlov,1927,第22页), 巴甫洛夫这样总结这一发现的意义:

显然,在自然条件下,正常的动物不仅要对自身直接有利或有害的刺激做出必要的反应, 而且还要对其他物理或化学介质如声波、光线等做出反应,尽管这些信号本身只是提示刺激的迫近。 就像正在捕食野兽的身影和吼叫并不会对其他小动物造成实质性的伤害,真正的危险隐藏在它的牙齿和利爪中(Pavlov,1927,第14页)。

这种将新的刺激与先天的反射联系在一起的方式被称为经典条件反射或巴甫洛夫反射。 巴甫洛夫(确切地说是他的译者)将先天反应(如前述的分泌唾液)称为“无条件反射”(unconditioned response,UR), 其天然的刺激因素(如食物)称为“无条件刺激”(unconditioned stimuli,US)。 同时,他将由预先指定刺激所触发的反射(同样是分泌唾液)称为“条件反射”(conditioned response CR), 而在先天条件下不会引起强烈反应的中性刺激(如节拍器的声音)则被称为“条件刺激”(conditioned stimulu,CS), 在经过反复的训练之后,动物会认为条件刺激是无条件刺激的预示,因此会对条件刺激产生条件反射。 这些术语仍然用于描述传统的条件反射实验(更确切地说应该是“条件制约的”和“无条件制约的”,而不是条件的和无条件的)。 由于US强化了CR对CS的反应,因此我们将US称为强化剂。

../../_images/delay_conditioning_trace_conditioning.png

右图显示了条件反射实验中的两种实现方式,分别为 延迟条件反射痕迹条件反射。 在延迟条件反射中,我们将CS产生与US产生之间的时间间隔称为刺激间隔(interstimulus interval ISI) ,CS贯穿了整个刺激间隔(在通常情况下,US和CS同时结束,如右图所示)。 而在痕迹条件反射中,Us在CS结束后才开始产生,而从CS结束到US产生的时间间隔被称为痕迹间隔。

巴甫洛夫的狗在听到节拍器声音后分泌唾液只是经典条件反射的一个例子, 人们在多种动物的不同反射系统中,都对这种现象进行了深入的研究。 无条件反射往往是动物对某种情况的准备措施,如狗分泌唾液,或者是对某种情况的防御措施, 例如在眼睛受到刺激时会进行眨眼反射,在看到捕食者时动物的身躯会变僵硬等。 在一系列的实验中,动物逐渐学习到,CS的产生通常预示着US的产生, 因此动物就会根据Cs产生CR来面对之后到来的US进行准备或防御工作一些CR与UR类似, 但是往往产生时间更早,并且提高效率的方式有所不同。如在一个以家兔为对象的深入实验中, 在声音刺激(CS)后向家兔眼睛中吹气(US),家兔会产生反射,其眼内的瞬膜会闭合来保护自己的眼睛不受到伤害(UR)。 在多次训练之后,声音刺激会触发瞬膜闭合的条件反射,该反射最初发生在向家兔眼睛吹气之前,但是最终会在最有可能吹气的时间点产生闭合反射。 这个CR通过对吹气时间的预期进行同步启动,相较于对US简单的闭合反应,它更能够起到保护作用。 通过学习刺激之间的预测关系来预测事件发生的能力对于动物是非常有益的,这也在动物世界中广泛存在。

14.2.1 阻塞与高级条件反射

我们可以在实验中观察到经典条件反射的许多有趣特性。 除了CR的预期性质之外,在经典条件反射模型的发展中还有两个显著的特点:阻塞和高级条件反射。 当一个潜在的CS与之前曾用于激发动物产生该CR的另一个CS一起呈现时,若动物未能学习到该CR,则产生阻塞。 如,在家兔瞬膜闭合反射阻塞实验的第一阶段中,家兔首先被声音(CS)以及向眼中吹气(US)所刺激。 实验的第二阶段包括一个额外的训练,在这个训练中增加了新的刺激因素, 例如灯光,与声音一同组成了声音/光的复合条件刺激,在这个条件刺激之后,依然向家兔眼中吹气,作为无条件刺激。 在实验的第三个阶段,只用灯光作为CS来对家兔进行条件刺激,发现家兔很少或几乎没有产生瞬膜闭合的条件反射。 对光刺激的条件反射学习被之前对声音的条件反射学习所 阻塞[2]。 实验中阻塞的结果挑战了条件反射的形成只取决于简单的时间接近性这一结论,即产生条件反射的充分必要条件是US频繁地紧随在CS后面。 在下一节我门将讲述Rescorla–Wagner模型(Rescorla and Wagner,1972),该模型对阻塞提出了一种很有影响力的解释。

如果我们将之前用作条件反射的CS作为另外一个中性的刺激因素的US进行条件作用时,则会形成高级条件反射。 巴甫洛夫曾经描述过这样一个实验:他的助手首先使一只狗对节拍器的声音产生分泌唾液的条件反射。 在形成这一阶段的条件反射之后,他进行了一系列的实验,将一个黑色的方块放置在狗的视线内, 然后跟着产生节拍器的声音,不过在放置黑色方块的时候并不给狗提供食物。 起初,狗对这个黑色方块表现出漠不关心的态度,但是在仅10次实验后,狗在看到这个黑色方块后就开始分泌唾液,尽管在这个过程中并没有食物的出现。 在这个实验中,黑色方块为CS,节拍器的声音作为US,激发了狗对CS的条件反射。这就是次级条件反射。 同理,如果黑色方块被当作US去进一步建立狗对其他CS的条件反射,这就被称为三级条件反射,依此类推。 但在实际中,高级条件反射较难实现,特别是在次级以上的情况下。 部分原因是在高级的条件作用实验中,高级的强化刺激后面没有原始US的作用,使其失去了强化的效果。 但是在适当的条件下,例如,将一级条件作用实验与高级条件作用实验相结合, 或给予实验对象通用的激励刺激时,次级条件反射以上的高级条件反射是可以表现出来的。 正如我们下面将要讲述的 TD条件反射模型,使用了自我引导的思想,这也是我们方法的核心, 通过纳入具有预期特性的CR和高级条件反射,它扩展了 Rescorla-Wagner模型对于阻塞的描述。

高级工具性条件反射也会发生。经过长期进化,动物自身会具有本能的趋利避害的强化过程,我们称这样的强化过程为初级强化。 而能够一致性地预测初级强化过程的刺激物则被称为强化剂。 依此类推,若某种刺激物预示着强化剂的出现,则称其为 次级强化剂 或者更普遍地称为 高级强化剂或者条件强化剂 ── 当被预示的强化刺激本身为次级强化剂或者更高级的强化剂时,后面的术语更加准确。 条件强化剂会引发一个 条件强化 过程:即条件收益或条件惩罚。 条件强化与初级强化一样,增加了动物采用会获得条件收益的行为的倾向, 减少了动物采用会导致条件惩罚行为的倾向(见本章末对我们使用的术语与心理学术语区别的注释)。

由此看来,条件强化是一个关键现象,例如,为什么我们要努力工作来获得金钱这个强化剂,它的价值完全来自于人们对拥有金钱后的预期。 在13.5节描述的“行动器评判器”方法中(同样在15.7节和15.8节里讨论过)评判器使用TD方法来评估一个行动器的策略, 它所估计的价值给行动器提供了条件强化,使得行动器可以据此来改进它的策略。 这种对于高级工具性条件反射的模拟有助于解决1.7节提到的功劳分配问题。 因为当基础的收益信号被延迟时,评判器会给行动器提供每个时刻的强化。 我们将在14.4节中进一步讨论这个问题。

[2]与控制组进行对照实验是十分有必要的,这可以充分说明之前声音的条件作用阻塞了动物对光照刺激的学习。 在对照组的实验中,动物没有接受声音的条件作用,对光照条件的学习没有受到阻塞。 Moore和 Schmajuk(2008)对这个实验做出了充分的说明。