第09章 经典条件反射与强化学习(1)

前言

本文为Peter Dayan和Larry Abbott《理论神经科学》第9章《经典条件反射与强化学习》学习笔记的第一部分,主要讲经典条件反射及其建模,后面再整理第二部分关于工具性(操作式)条件反射。

提示

阅读本文需要以下基础:微积分。

太长不看版

  1. 什么是强化学习?通过外界反馈的奖励或惩罚进行学习的行为
  2. 强化学习有哪些类型?有什么区别?(1)经典条件反射 & 工具性条件反射。(2)在工具性条件反射中,动物需要通过做出某种动作以获得奖励,譬如老鼠通过压杠杆获取食物来建立压杠杆与食物的联系;而经典条件反射不涉及行为上的学习,譬如巴甫洛夫的狗不需要做任何动作就建立了铃声和食物的联系。
  3. 经典条件反射有哪些范式?有什么区别?(1)有巴甫洛夫条件反射、消除条件反射、部分条件反射、阻断条件反射、抑制条件反射、掩盖条件反射、二级条件反射。(2)它们在训练程序、测试程序以及行为现象上有区别。
  4. 如何统一解释各种经典条件反射范式?除了二级条件反射外,其余都可以用Rescorla-Wagner规则(delta规则)解释
  5. 如何解释二级条件反射?时间差分规则(Rescorla-Wagner规则的推广)可以解释二级条件反射

1 | 什么是强化学习?

在课堂上,学生通过做题、对答案来学习,这是一种有监督学习。而自然界中,动物的学习往往没有正确答案,但它们可以通过外界反馈的奖励或惩罚来学习,这种学习叫做强化学习,其中奖励或惩罚被称为强化物。譬如牛吃到有毒蘑菇拉肚子,那么牛就学会不吃毒蘑菇,其中“拉肚子”是对牛的惩罚,是学习的强化物。

2 | 强化学习有哪些类型?有什么区别?

强化学习传统上被分为经典条件反射(或巴甫洛夫条件反射)和工具性条件反射(或操作性条件反射)。两者的区别在于,

  • 前者的强化物不依赖于动物的行为,譬如巴甫洛夫的狗只是听铃声而没有做什么其它操作就获得肉吃;
  • 后者的强化物依赖于动物的行为,譬如老鼠在压杆子后获得食物。在神经科学中常见的动物行为任务的训练基本上属于工具性条件反射,常见的强化物是水或事物。

3 | 经典条件反射有哪些范式?有什么区别?

经典条件反射有不同的范式,它们涉及不同的训练程序和测试程序,并造成不同的行为现象。

  • 巴甫洛夫(Pavlovian)条件反射:最早期由巴甫洛夫发现的经典条件反射,即巴甫洛夫训练狗将铃声(刺激s)与肉(奖励r)联系起来的实验。
  • 消除(Extinction)条件反射:在预训练阶段先建立“刺激→奖励”的联系;然后在训练阶段给刺激后不给奖励;结果,动物将消除掉原来已经建立的联系。
  • 部分(Partial)条件反射:在训练阶段给刺激后有时给奖励,有时不给;结果只能建立部分的联系。其中参数α用于表示部分的、减弱的联系,如果是负号则表示对期望奖励的抑制。
  • 阻断(Blocking)条件反射:在预训练阶段先建立“刺激s1→奖励”的联系;训练阶段给刺激s1时,同时给出刺激s2,则动物只能保留“刺激s1→奖励”的联系,而阻断了对“刺激s2→奖励”的学习
  • 抑制(Inhibitory)条件反射:训练阶段有两种试验,一种是给出刺激s1和s2后不给奖励,另一种试验是给出s1后给奖励,两种试验交替进行;结果动物学会了“刺激s1→奖励”,同时认为s2的出现抑制了奖励,即“刺激s2→惩罚”
  • 掩盖(Overshadow)条件反射:训练阶段同时给刺激s1和s2后给刺激;结果动物认为刺激s1和s2都能带来部分的奖励【怎么体现掩盖?】
  • 二级(Secondary)条件反射:在预训练阶段先建立“刺激s1→奖励”的联系;训练阶段给刺激s1后,给出刺激s2(不是奖励);结果动物认为是刺激s2带来了奖励。

4 | 如何统一解释各种经典条件反射范式?

4.1 | 什么是Rescorla-Wagner规则(delta规则)?

首先对经典条件反射进行建模。设刺激输入为u,实际奖励为r,预期奖励为v。譬如在巴甫洛夫的实验,刺激是铃声,奖励是肉。铃声的有无为u(0表示无,1表示有),实际/预期肉的有无为u/v(同样0表示无,1表示有)。

简单起见,我们进一步假设:预期奖励与刺激输入具有线性关系,v=wu。接下来需要通过学习得到权值 w 的值,而学习的目的在于最小化实际奖励 r 和预测奖励 v 之间的预期的平方误差 <(r – v)^2>,其中尖括号表示刺激和奖励的平均表现。要使误差最小化,常用的方法是随机梯度下降法,这就产生了被称为Rescorla-Wagner规则的逐次试验学习规则

Rescorla-Wagner规则其实就是delta规则,简单地说,就是权值的修正量等于误差乘以输入u、再乘以一个学习率ε。

4.2 | Rescorla-Wagner规则如何解释巴甫洛夫条件反射?

在巴甫洛夫(Pavlovian)条件反射未开始训练时,w(0)=0。在训练期间,每个试次都有刺激和奖励一起出现,因此在训练期间的所有试次中,u和r都为恒定值1。这样可以直接算出解析解w(t) =r/u * (1 – exp(-ε*u^2*t)),其中t为trial。因而权值w指数逼近极限r/u,且ε越大,逼近速度越快,从而有v=wu→r/u*u=r,这就建立了刺激到奖励的完全联系。

4.3 | Rescorla-Wagner规则如何解释消除条件反射?

消除(extinction)条件反射经过预训练,所以w初始值为1。训练期间,u和r都为恒定值,但u恒为1,而r恒为0。所以解析解为w(t) = exp(-ε*u^2*t),因而权值w从1指数衰减到0,且ε越大,衰减速度越快。这就消除了刺激到奖励联系。

4.4 | Rescorla-Wagner规则如何解释部分条件反射?

在部分(partial)条件反射的训练期间,只有随机部分的试验中奖励与刺激相关联(记这部分试验的比例为α)。在这种情况下,所建立的奖励与刺激之间的最终联系要比奖励总是出现时要弱,而且关联试验的比例α越小,最终的权值越小。

4.5 | Rescorla-Wagner规则如何解释阻断条件反射?

后面几种条件反射(如阻断条件反射)都涉及两种刺激(设为s1和s2),这时候Rescorla-Wagner规则中作为标量的刺激值u(粗体表示向量)及相应的权值w需要被推广为二维向量形式。期待的奖励变为各个刺激乘以相应的权值的总和,可以用点积表示:v=w1u1+w2u2 = w·u。在这种情况下,通过随机梯度下降最小化预测误差给出了学习规则,

在阻断(blocking)条件反射中,预训练建立了刺激s1与奖励的联系(与巴甫洛夫条件反射一样),但刺激s2还没有与奖励建立联系,所以w1初始值为1,但w2初始值为0,因而v = w1u1+w2u2 = w1u1 = r, δ = r – v = 0。正因为训练一开始δ就为0,所以两个权值都没有被进一步改变,这使得w1恒为1,w2恒为0。结果就表现为s1与奖励的联系阻断了s2与奖励的联系的建立。

4.6 | Rescorla-Wagner规则如何解释抑制条件反射?

在抑制(inhibitory)条件反射训练初始时,w1=w2=0,v=0,δ=r。而在训练过程中,有两种试验交替出现:有些试验只有刺激s1与奖励一起呈现;有些试验只有两个刺激出现,而奖励不出现。前者建立了刺激s1和奖励的联系,所以会有w1→1;而后者可以看成第三种刺激“s1+s2”与奖励没有建立联系,即w1+w2→0。故w2→-1,即第二个刺激成为条件反射的抑制因子。

4.7 | Rescorla-Wagner规则如何解释掩盖条件反射?

Rescorla-Wagner规则还可以解释掩盖(overshadow)条件反射。在训练阶段中,两种刺激和奖励一起呈现,这样导致第三种刺激“s1+s2”与奖励建立联系。因而w1+w2→1,预测奖励值为v=w1u1+w2u2=r。而在测试阶段,如果仅仅呈现一种刺激,譬如刺激s1,那么预测奖励值则变为v=w1<r。类似地,只呈现s2时,v=w2<r。

通过对delta规则的推广,可以使两种刺激具有不同的学习速率(不同的ε值),反映不相等的联系能力,即有某个刺激比另一个更显著。当<δ>=0权值修改停止,此时,增长快的权值将大于增长慢的权值,即前者对应的刺激与奖励的联系掩盖了另一个与奖励的联系。

4.8 | Rescorla-Wagner规则为什么解释不了二级条件反射?

尽管二元刺激参数和线性奖励预测是对动物学习行为的粗略简化,但Rescorla-Wagner规则非常有用,它解释了大量经典条件反射数据。不过,需要指出的是:Rescorla-Wagner规则不能解释二级条件反射。

按照Rescorla-Wagner规则,预训练建立了s1与奖励的联系,即w1→1;而训练期间两个刺激同时出现但奖励没有出现,这应当导致w1+w2→0,所以Rescorla-Wagner规则会导致w2→-1。但实际结果是第二个刺激也能正向地预测奖励的出现,即w2→1,这跟Rescorla-Wagner规则预测的完全相反。

Rescorla-Wagner规则之所以不能解释二级条件反射,是因为它不能刻画单个试验(trial)内的时间。训练期间的同一个试验中,两个刺激的出现是有先后顺序的,而按照Rescorla-Wagner规则的算法,“s1→s2”只能表示为同时给出两个刺激。既然这两种刺激同时出现,那么结果就会造成抑制条件反射而不是二级条件反射的效果。

5 | 如何解释二级条件反射?

5.1 | 什么是时间差分规则?

为了刻画试验(trial)内的时间,我们将刺激u、实际奖励r和预期奖励v都表示为时间t(之后不做说明,默认t表示试验内时间,而不再表示试次)的函数,即分别为u(t),r(t)和v(t)。离散时间变量t的范围为0 <= t <= T,T为单个试验的时间长度。

u(t)和r(t)分别表示在t出现的刺激和奖励值,而自然地,v(t)表示预测在t时的奖励大小。然而,Sutton和Barto(1990)提出将v(t)解释为从t时刻开始到试验结束所期望的未来总奖励的预期值。这种定义能更好地与心理和神经生物学数据匹配,并用于解释当奖励被延迟时动物如何使用它们的预测来优化行为。

在前面双刺激的Rescorla-Wagner规则中,预测奖励是两个刺激的加权和,v=w1u1+w2u2。这里,v(t)被推广为试验内各个时间点的刺激的加权和(卷积)【重点!】

于是Rescorla-Wagner规则被推广为:

其中δ(t)为未来总奖励实际值预期值的差值(连加号中τ的范围为[0,T])

从这个公式可以推测,当δ和u同时较大时,w的值较大,【还没写完。。。】

不过这里有个问题,那就是如何知道δ(t)中未来总奖励的实际值呢?未来的总奖励虽然r(t)在t时刻是已知的,但随后的r(t+1), r(t+2)……都还没有发生,这使得计算δ(t)是不可能的事。这里有个巧妙的处理,那就是将未来的总奖励分成已知部分(第t时刻的实际奖励,即r(t))和未知部分(第t+1到T时刻的实际总奖励,即r(t+1)+…+r(T)),并且用第t+1到T时刻的预期奖励v(t+1)近似代替未知部分

基于这种近似,Rescorla-Wagner规则就被推广为时间差分规则:

其中δ(t)通常被称为时间差分误差,这个规则的名称源于预测奖励的时间差分项Δv=v(t+1) – v(t)。

5.2 | 时间差分规则如何预测奖励?

类似Rescorla-Wagner规则,时间差分规则可以解释刺激s1和未来奖励的联系建立的过程,而且它还能预测出奖励的大小与奖励在试验中出现的时间。

假设训练期间中,总在每个试验(trial)内的t=100时刻出现一个刺激(下图第1行的“尖峰”),且在t=200附近的短时间内给予奖励(下图第2行)。具体来说,奖励曲线为高斯型曲线,均值为200,方差为3,其积分值为2。另外,学习率ε设置为0.5。

在训练没开始时,对于所有的τ,有w(τ) =0。

经过第1个试验的训练,

  • 由于对所有的τ,权值函数w(τ) =0,因而对所有的t,预期奖励v(t)=0(下图第3行第1列)。
  • 所以对所有的t,预期奖励的差Δv(t)=0(下图第4行第1列)。
  • 这又导致时间差分误差δ等于r,因此δ只在t = 200附近非零(下图第5行第1列)。
  • 在每个时间点t,要对所有τ,将w(τ)更新为εδ(t)u(t-τ)。但由于δ只在t = 200附近以外非零,所以只要看t = 200附近时的更新情况,这使得u只需要考虑200-τ附近。而u又只有t=100才非零,所以w在τ=100附近时才非零(下图第6行第1列)。

经过第20个试验的训练,

  • 由于w(τ)在τ=100附近非零,u(t)在t=100非零,所以预期奖励v(t)=Σw(τ)u(t-τ)在t=200附近非零(下图第3行第2列)
  • 预期奖励的差Δv(t)可以简单看作v(t)的导数,故在t=200附近呈现“一峰一谷”的形状(下图第4行第1列)。

经过第250个试验的训练,各个参数基本稳定:

  • 预期奖励v(t)从“山峰”变成“高原”(下图第3行第3列),并且前方的边界扩展到刺激出现时(t = 100),其最大值等于u从t到T的积分值(这里为2)。v通过在奖励产生的时候降到0的方式预测奖励产生的时间。
  • 相应地,时间差分项Δv(v相邻两点的差,可简单理解为导数)产生的“包”随着v(t)“高原”向前移动,最终在t=99形成一个“尖峰”,而在t = 200附近是负的,且这部分与实际奖励完全相反(下图B第4行右图)。
  • 与Δv类似,δ的“包”向前移动,并在t=99形成一个峰,而从Δv与r在t=200互相抵消,因而δ为0(下图B第5行右图)。

5.3 | 时间差分规则如何解释二级条件反射?

与Rescorla-Wagner规则不同,时间差分规则提供了二级条件反射的解释。

然后,时间差分规则可以解释训练期的变化。当刺激s2出现在s1之前,在s1出现时的δ(t)正的尖峰驱动与s2关联的权重的值的增加,从而在刺激s2和奖励之间建立正的联系。这正好反映了上面描述的s1的基本学习过程。当然,因为在这些实验中没有出现奖励,所以在奖励本身出现了一个负的峰值δ(t),最终s1和s2和奖励之间的联系消失了。

5.4 | 时间差分规则在大脑中的表征?

腹侧被盖区(VTA)多巴胺能神经元的信号被认为表征这个时间差分误差δ(t)。

在Schultz和他的同事(Schultz, 1998)的一系列研究中,为了获得食物和饮料的奖励,猴子通过工具条件反射来对诸如光线和声音等刺激做出反应。当猴子学习这些任务时,VTA细胞的活动被记录下来。

下图显示了多巴胺细胞在学习过程中的两次活动。这个图是基于一个反应时间的任务,在这个任务中,猴子将手指放在按键上,直到发出声音。然后,猴子必须松开按键,再按下另一个按键来获得果汁奖励。第二按键按下后,奖励会在短时间内发放。

  • 下图中的子图A的第一行显示了早期试验中细胞的反应。细胞对奖励有强烈的反应,但对声音的反应仅略高于基线。
  • 下图中的子图A的第二行显示了适度训练后的反应。现在细胞对声音有反应,但对奖励没有反应。

因此,多巴胺神经元的反应响应表现出了明显与 δ(t) 的相似模式,这表明它们的活动提供了奖励的预测误差,即进行中的奖励实际数量和预计数量的差。子图B为这种解释提供了进一步的证据:

  • 这个图的上一行显示了正常的表现,就像子图A的第二行一样。
  • 第二行显示了当猴子期待奖励但它没有得到奖励时会发生什么。在这种情况下,细胞的活动被抑制在基线以下,而在最初的试验中,它会被奖励激活。这与此活动的预测误差解释一致。

发表评论

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据