大脑的奖励机制
TD-Gammon的核心是时间差分学习算法,它受到了动物学习实验的启发。几乎所有经过测试的物种,从蜜蜂到人类,都可以进行关联训练,就像巴甫洛夫的狗一样。在巴甫洛夫的实验中,诸如铃声之类的感官刺激之后,就会有食物出现,这会引起流涎反应。经过几次这样的配对之后,仅靠铃声本身就会导致流涎。不同物种在关联学习中对无条件刺激有不同的偏好。蜜蜂非常擅长将花的气味、颜色和形状与花蜜的奖励联系起来,并利用这种学习到的关联来找到当季盛开的相似品种的花。这种普遍的学习方式一定包含了什么重要信息。20世纪60年代有一段时期,心理学家们深入研究了引起关联学习的条件,并开发了解释它的模型。像斯金纳(B. F. Skinner)这样的行为主义学家曾训练鸽子识别出照片中的人类,这就让人联想起对深度学习的训练,但这其中有一个很大的区别。反向传播学习需要对输出层上的所有单元提供详细的反馈,但关联学习只提供单一的奖励信号,即正确或不正确。大脑必须弄清楚环境中的哪些特征能够帮助做出成功的抉择。
只有在奖励之前发生的刺激才被认为和奖励有关联。这是有道理的,相比奖励之后的刺激,奖励之前的刺激更有可能引发奖励。因果关系是自然界的一个重要原则。相反的情况则是条件刺激之后伴随的惩罚,例如撞到脚这一后果,能教会动物在今后避免这类刺激。在某些情况下,条件刺激和惩罚之间的时间间隔可能会相当长。20世纪50年代,约翰·加西亚(John Garcia)表明,如果一只老鼠被喂了甜水,并且在几小时后感到恶心,那么它在接下来的几天都会避开甜水。这就是所谓的“味觉厌恶学习”(taste aversion learning),它也会发生在人类身上。[6] 有时,恶心会被错误地关联到摄取的食物上,如巧克力。遗憾的是,巧克力只是与其他东西同时被食用,而不是引起恶心的原因;而由此产生的厌恶感可以持续多年,即使当事人已经理性地觉察到巧克力并不是问题的根源。
多巴胺(Dopamine)是脑干中一组由扩散投射神经元所携带的神经调节剂(见图10–4),长期以来一直被认为与奖励学习有关,但人们始终不清楚它传给皮层的信号是什么。20世纪90年代,我实验室的博士后研究员彼得·达扬(Peter Dayan)和瑞德·蒙塔古(Read Montague)意识到,多巴胺神经元可以实现时间差分学习。[7] 这是我科研生涯中最让人兴奋的几个时期之一,这些模型及其预测得以发表,并随后被沃尔夫拉姆·舒尔茨(Wolfram Schultz)及其同事通过猴子的单神经元记录(见图10–5)[8] 和人类脑成像[9] 加以证实。现在已经确定,多巴胺神经元活动的瞬时变化传递了奖励预测误差信号。
1992年,我去柏林拜访了正在研究蜜蜂大脑快速学习的兰道夫·门泽尔(Randolph Menzel),当时我们在灵长类动物的奖励预测误差方面已经取得了一些进展。蜜蜂的学习能力在昆虫界是数一数二的。在访问一朵花几次并得到奖励后,蜜蜂就能记住这朵花。蜜蜂脑中有大约100万个小神经元,很难记录这些神经元的活动,因为它们非常小。门泽尔的小组发现了一种叫作“VUMmx1”的独特神经元,它对蔗糖有反应,但对气味没有反应。然而,如果先传递气味再提供蔗糖奖励,VUMmx1也会对气味做出反应。[10] 时间差分学习的多巴胺模型在蜂脑中可能由单个神经元实现。VUMmx1释放了一种在化学上与多巴胺密切相关的神经调节剂——奥克巴胺(octopamine)。这种蜜蜂学习模式可以对蜜蜂心理学中一些微妙的方面做出解释,比如风险规避。[11] 如果让蜜蜂在“定时定量的奖励”和“在一半的时间内获得双倍奖励”之间进行选择,蜜蜂会始终选择前者,尽管奖励的平均值相同。[12] 多巴胺神经元也存在于苍蝇体内,并且已被证明包含几条用于短期和长期关联记忆的并行强化学习途径。[13]
本书评论