学习目标问题 7-7 什么是操作性条件反射?
经典条件反射使狗听到声音信号就流口水,或使孩子害怕移动的汽车,这是一回事。但要教大象用后腿走路,或教孩子说“请”,我们就得求助于操作性条件反射。
经典条件反射和操作性条件反射都是联想学习的一种形式,但它们有着明确的区别:
·经典条件反射在刺激物(条件刺激及其所预示的无条件刺激)之间形成关联。它也包括应答性行为,即对刺激的自动反应,比如狗对肉粉的反应和后来对声音信号的反应。
·在 操作性条件反射 (operant conditioning)中,生物体将自己的行为与后果联系起来,有强化物跟随的行为更可能再次发生,而有惩罚物跟随的行为再次发生的可能性会减少。对环境进行操作以产生奖励性或惩罚性刺激的行为称作操作性行为。
操作性条件反射:一种学习方式,即有强化物跟随的行为更可能再次发生;而有惩罚物跟随的行为再次发生的可能性会减少。
检索练习
RP-1 在经典条件反射中,我们学习了我们______(能/不能)控制的事件之间的联系;在操作性条件反射中,我们学习行为和______(结果/随机)事件之间的关联。
答案见附录D
B. F.斯金纳(B. F. Skinner,1904—1990)在大学主修英语专业,同时也是一位胸怀抱负的作家,为了寻找新的方向,他报考了心理学的研究生,后来成了现代行为主义领域中最具影响力和争议性的人物。斯金纳的工作细化了心理学家爱德华·桑代克(Edward Thorndike,1874—1949)所提出的 效果律 (law of effect):受到奖励的行为往往会再发生(图7.9),而受到惩罚的行为则不会。斯金纳以桑代克的效果律为出发点,开发出一种行为技术,揭示了行为控制的原则。1943年,斯金纳在明尼阿波利斯一家面粉厂的屋顶办公室进行研究,他和他的学生凯勒·布兰(Keller Breland)和诺曼·古特曼(Norman Guttman)看着坐在窗台上的成群鸽子,开玩笑地好奇道:“我们能不能教鸽子打保龄球呢?”(Goddard, 2018; Skinner, 1960)通过塑造鸽子的自然行走和啄食行为,斯金纳和他的学生做到了这一点(Peterson, 2004)。后来,斯金纳开始用他的新学习原则教鸽子其他一些不那么“鸽子”的行为,包括如何以8字形行走、打乒乓球,以及通过啄击屏幕上的目标来保持导弹的航向。
效果律:由桑代克提出,即引起有利后果的行为更有可能再次出现,引起不利后果的行为出现的可能性更小。
图7.9 迷笼中的猫
桑代克以鱼作为奖励,诱使猫进行一系列操作来找到走出迷笼的方法。猫的表现往往随着连续试验而变好,证明了桑代克的效果律(Thorndike, 1898)。
图7.10 斯金纳箱
在箱子中,老鼠按压杆子获得食物奖励。计数装置(此处未展示)在箱外对动物的累计反应进行记录。
斯金纳为他的开创性研究设计了一个 操作箱 (operant chamber),俗称斯金纳箱(图7.10)。箱子里有一根杆子(杠杆),动物按下杆子,或者啄一下按键(或圆盘)就会得到食物或水作为奖励,箱子外也有一个装置对动物的反应进行记录。这就创造出一个舞台,斯金纳的 强化 (reinforcement)概念得以在舞台上由老鼠和其他动物演绎出来:任何加强先前反应,即增加其频率的事件都是强化物。什么事件有强化作用,取决于动物本身和环境条件。对一些人来说,强化物可能是赞赏、关注或薪水,对另一些人来说,则可能是减轻痛苦或产生兴奋的药物(Bechara et al., 2019)。而对于饥渴交迫的老鼠来说,食物和水的强化效果就很好。斯金纳的实验不止教了我们如何在老鼠身上培养出习惯,还探索了促进高效持久学习的精确条件。
操作箱:也称为斯金纳箱,在操作性条件反射研究中,指一个里面有杆子或按键的箱子,动物可以通过操作杆子或按键来获得强化物,即食物或水;另有装置记录动物按压杆子或啄按键的次数。
强化:在操作性条件反射中,任何能强化其后续行为的事件。
假如你想训练饥饿的老鼠按压杆子,你也可以像斯金纳一样用 塑造法 (shaping)逐渐引导老鼠的行为向期望的行为靠拢,最终诱导出这个动作。首先,你要仔细观察老鼠的自然行为,以便在它的现有行为上进行调整。你可以在老鼠每次靠近杆子时给它一点食物,一旦老鼠定期靠近,就只在它朝杆子走得更近时给它食物,然后引导它越来越接近杆子,最终要求它触碰杆子才能得到食物。通过对连续接近的行为进行奖励,你强化了越来越接近最终期望行为的反应,忽略了其他反应。研究人员和动物训练员将做出期望的行为作为得到奖励的条件,逐渐塑造出了复杂的动物行为。我们也可以塑造自己的行为。比如说,你第一次参加5千米赛跑,想要进行训练,于是制订了一个步行和跑步混合的日常训练计划。在训练的每个阶段,你都给自己一个不错的奖励,比如起初步行15分钟奖励时自己一次,随后步行和跑步1千米时也奖励自己一次,接着跑步1千米时再奖励自己一次,最后是每次多跑500米时给予奖励,如此类推,对自己连续接近目标的行为进行奖励。
塑造法:一个操作性条件反射程序,即强化物引导行为向期望的行为靠拢。
塑造法也可以帮助我们了解非言语生物的知觉。狗能辨别红色和绿色吗?婴儿能听出低音和高音的区别吗?如果我们能使它们只对一种刺激做出反应,而不对另一种刺激做出反应,那么我们就知道它们能感知到这样的区别。这样的实验甚至表明,一些非人动物可以形成概念。实验者只强化鸽子看到面孔后的啄击行为,而不强化看到其他图像后的啄击行为时,鸽子的举动表明它们可以识别面孔(Herrnstein & Loveland, 1964)。在这个实验中,面孔是一个分化刺激。分化刺激就像交通灯的绿灯信号一样,标志着一种反应将得到强化。鸽子受到辨别事物类别(如花、人、汽车、椅子)的训练后,通常可以判断一个新图片中的物体所属的类别(Bhatt et al., 1988;Wasserman, 1993)。更有甚者,它们经过训练后,可以区分巴赫(Bach)和斯特拉文斯基(Stravinsky)的音乐(Porter & Neuringer, 1984)。
斯金纳指出,尽管并非有意为之,但我们常会不断地强化和塑造他人的日常行为。例如,艾琳达(Erlinda)的唠叨惹恼了她的妈妈,但妈妈通常的反应是:
艾琳达:“你能带我去商场吗?”
妈妈:(看手机。)
艾琳达:“妈妈,我想去商场。”
妈妈:“嗯,好的,等我一会儿。”
艾琳达:“妈妈!商场!”
妈妈:“礼貌点!好吧,我的钥匙在哪儿……”
艾琳达的唠叨得到了强化,因为她得到了想要的东西——去商场;妈妈的反应也得到了强化,因为她摆脱了厌恶的东西——艾琳达的唠叨。
或者想想另一个例子:对于在拼写测试得了100分的学生,老师在他们的名字旁边贴上金色的星星。大家就都可以看出,有一些学生的表现一直很好,而另一些学生可能比那些优秀学生更努力,却没有得到任何奖励。我们应当建议老师应用操作性条件反射的原理,对所有参与拼写的学生逐步改善的表现(逐步接近完美地拼写他们认为有挑战性的单词的目标)予以强化。
自问
你能回忆起某次老师、教练、家庭成员或雇主通过一小步一小步地塑造你的行为来帮助你学习,直至达到目标的经历吗?
学习目标问题 7-9 正强化和负强化有何不同?强化物的基本类型有哪些?
到目前为止,我们主要探讨的都是 正强化 (positive reinforcement),即在反应后立即给予想要的刺激以对反应进行强化。但是,艾琳达唠叨的例子说明,基本的强化方式有两种(表7.1)。 负强化 (negative reinforcement)是通过减少或消除厌恶的刺激来强化某个反应。艾琳达的唠叨得到了正强化,因为艾琳达得到了想要的东西——去商场;妈妈的反应,即满足艾琳达的要求,得到了负强化,因为妈妈摆脱了厌恶的事情——艾琳达的唠叨。同样,服用阿司匹林能缓解头痛,关掉闹钟能让恼人的闹铃安静下来,这些令人愉快的结果带来了负强化效果,增加了人重复这些行为的概率。戒毒者复吸的一大原因就是停止痛苦的戒断反应会导致负强化(Baker et al., 2004)。请注意,负强化并不等于惩罚。相反,负强化指的是消除惩罚性或厌恶的事物,它是心理学中最容易被误解的概念。我们应把负强化看成一种提供解脱的手段,帮助我们摆脱唠叨的人、糟糕的头疼或恼人的闹钟。
正强化:通过给予想要的刺激来增加行为发生的次数。正强化物是指任何在反应后出现并强化该反应的刺激。
负强化:通过减少或消除厌恶的刺激来强化行为。负强化是指任何在反应后被移除会加强该反应的刺激(注意:负强化不是惩罚)。
表7.1 强化行为的方式
有时候,负强化和正强化是一致的。试想一下,一个焦虑的学生,在偷懒导致考试一塌糊涂后,开始为下次考试努力学习。他的努力可能会因焦虑减轻而得到负强化,又因成绩提高而得到正强化。得到摆脱厌恶刺激的奖励,也会增加我们重复自己行为的概率。要记住的一点:无论是通过减少厌恶的事物,还是通过提供期望的事物来发挥作用,只要产生了激励行为的结果,就是强化。
初级强化物和条件强化物 饥肠辘辘时得到食物,或头疼欲裂缓解带来的满足感是自然而然、未经学习的,这些都是 初级强化物 (primary reinforcer)。 条件强化物 (conditioned reinforcer),也称为次级强化物,是通过学习来与初级强化物形成联系,从而产生影响。如果斯金纳箱中的老鼠学习到灯光可靠地预示了食物的投放,那么这只老鼠就会尝试去开灯(图7.10),这盏灯就成了条件强化物。我们的生活中充满了条件强化物,如钱、好成绩、愉快的语气,每一个都与更基础的奖励有关。
初级强化物:固有的强化刺激,如满足生物需要的刺激。
条件强化物:通过与初级强化物的联系而获得强化能力的刺激,也称为次级强化物。
即时强化物和延迟强化物 我们再一起回到让老鼠产生按压杆子的条件反应的想象实验中来。除了执行按压杆子这种研究人员“想要的”反应外,老鼠还会做出其他研究人员“不想要的”反应,如挠痒痒、嗅探和四处走动,如果你在其中任何一个反应发生之后立即给老鼠投放食物奖励,老鼠很可能会再重复这一得到奖励的反应。
但是,如果老鼠按压杆子时你分心了,延迟了投放强化物的时间,会发生什么情况呢?如果延迟时间超过了30秒,老鼠就学不会按压杆子(Austen & Sanderson, 2019;Cunningham & Shahan, 2019)。延迟也会阻碍人类的学习。经常做小测验的学生能把课堂内容学得更好,因为小测验给他们提供了即时的反馈(Healy et al., 2017)。即时反馈产生即时学习。
但与老鼠不同的是,人类会对延迟的强化物做出反应,比如每周末发的工资、每学期末的好成绩、运动季结束时发的奖杯。事实上,为了更有效率,我们必须学习如何掌握困难任务下的延迟满足。在心理学最著名的一项研究中,一些4岁大的孩子就表现出了这种能力。在选择糖果或棉花糖时,这些能够控制冲动的孩子选择明天得到大份,也不选择立刻得到小份。具备延迟满足能力的儿童长大后往往更能适应社会,成就也更高(Mischel, 2014)。最近一项研究表示,延迟满足与以后的成就之间有类似的关联,尽管这一关联性较弱(Watts et al., 2018)。学会控制冲动以获得更有价值的奖励,甚至可以防止我们以后冲动犯罪(Åkerlund et al., 2016; Logue, 1998a, b)。要记住的一点:延迟是有好处的。
然而,不利的是,即时的小小欢愉有时比延迟的丰厚回报更具诱惑力,深夜看电视的乐趣有时远比为准备明天的大考好好休息更吸引人。对许多青少年来说,在激情时刻进行风险重重、没有保护措施的性行为所带来的即时满足,要比安全有保障的性行为所带来的延迟满足更胜一筹。同样,对许多人来说,今天的汽车、飞机和空调等带来的直接奖励比全球气候变化、海平面上升和极端天气等未来更大的后果更重要。
学习目标问题 7-10 不同的强化程式如何影响行为?
强化程式:一个模式,规定了对所期望的反应进行强化的频率。
连续强化:每一次发生期望的反应时都进行强化。
部分(间歇)强化程式:只在一部分时间内对反应进行强化;与连续强化相比,获得反应的速度较慢,但对消退的抵抗力更强。
固定比率程式:在操作性条件反射中,指只在反应达到一定次数后对反应进行强化的强化程式。
可变比率程式:在操作性条件反射中,指在似乎不可预测的反应次数后对反应进行强化的强化程式。
固定间隔程式:在操作性条件反射中,指只在一定时间间隔后对反应进行强化的强化程式。
“钓鱼的魅力在于,它追求的是难以捉摸但可以实现的东西,永远都充满着希望。”
——苏格兰作家约翰·巴肯
在我们的大多数例子中,期望的反应每次出现时都会得到强化。但是, 强化程式 (reinforcement schedule)则各有不同。在 连续强化 (continuous reinforcement)的情况下,学习的速度很快,这表明连续强化是学会某种行为的最佳选择。但是消退的速度也很快。强化停止时,比如在老鼠按压杆子后不投放食物,行为会很快停止(消退)。如果一台通常可以正常使用的糖果机连续两次都掉不出巧克力棒,我们就不会再往里面投币了(尽管一周后我们可能就会自发恢复,再次尝试投币)。
现实生活中连续强化并不多见。销售人员并不是每次推销都能成功,但他们的努力偶尔会得到回报,所以他们才能坚持不懈继续推销。这样的坚持不懈就是典型的 部分(间歇)强化程式 [partial(intermittent)reinforcement schedule],在这种程式中,反应有时能够得到强化,有时则不能。与连续强化相比,部分强化的学习速度较慢,但对消退的抵抗力更强。假设一只鸽子已经学会通过啄击按键获取食物。如果你以无法预测的模式逐渐停止投放食物,直到偶尔才投放一次,鸽子可能会在没有奖励的情况下啄击150 000次(Skinner, 1953)。老虎机也同样以偶然、难以预测的方式对赌徒进行奖励,像鸽子一样,玩老虎机的人会一次又一次地不断尝试。在部分强化的情况下,希望永远存在。
部分强化对儿童也有作用。父母为了一时安宁偶尔对儿童的脾气让步,也会部分强化儿童的脾气。部分强化是使某一反应持续下去的最佳程式。
斯金纳和他的同事比较了以下四种部分强化程式及其对反应的影响。
固定比率程式 (fixed-ratio schedule)是只在反应达到一定次数后对反应进行强化。比如,咖啡店可以在我们每消费10杯咖啡后免费赠送一杯饮料。形成条件反射后,老鼠的反应也可以按照固定比率得到强化。比如说,每30次反应后就对其投放食物小球,一旦形成条件反射,老鼠得到强化物后只会短暂的停顿一下,然后就迅速回到高反应频率的状态。
可变比率程式 (variable-ratio schedule)是在似乎不可预测的反应次数后对反应进行强化。老虎机玩家和飞蝇钓爱好者所体验的正是这种难以预测的强化,这种强化使得即使老虎机和飞蝇钓没有产生预期的结果,仍有很多人热衷于此。由于强化物随着反应次数增加而增加,可变比率程式会产生很高的反应频率。
固定间隔程式 (fixed-interval schedule)是只在一定时间间隔后对反应进行强化。在这种类型的程式中,随着预计奖励时间的临近,动物们会更频繁地做出反应:人们会随着送达时间的临近更频繁地检查邮件,鸽子也会随着获得强化的时间临近而更快地啄击按键。这种间隔程序产生了一种不稳定的停止-启动模式,而非稳定的反应频率(图7.11)。
图7.11 部分强化程式
斯金纳的实验鸽对四种强化程式产生了如右图的反应模式(给予强化物用斜线标记表示)。人的强化实验与鸽子的一样,与反应次数相关的强化(比率程式)比与经过的时间长度相关的强化(间隔程式)产生的反应频率更高。但奖励的可预测性也很重要。不可预测(可变)的程式比可预测(固定)的程式产生的反应更稳定(Skinner, 1961)。
可变间隔程式 (variable-interval schedule)是在不可预测的时间间隔后对反应进行强化。在不可预测的时间间隔内,食物小球会激励着斯金纳的实验鸽坚持啄击按键。就像期待已久的信息会激励人坚持查看手机一样,可变间隔程式往往能够产生缓慢而稳定的反应。这是有道理的,因为我们并不知道这样的等待何时才能结束(表7.2)。
可变间隔程式:在操作性条件反射中,指在不可预测的时间间隔后对反应进行强化的强化程式。
表7.2 部分强化计划
一般来说,当强化与反应次数有关(比率程式)时,反应频率会比其与时间有关(间隔程式)时更高。但是,强化物不可预测时,可变程序比固定程序的反应更稳定(图7.11)。动物们的行为各不相同,但斯金纳认为操作性条件反射的强化原则是普遍的。他认为,什么反应、什么强化物或使用什么物种进行实验都不重要。特定强化程式的效果几乎一样:“鸽子、老鼠、猴子,哪种动物不重要……它们的行为都显示出了惊人的相似性。”
检索练习
RP-2 发送垃圾邮件的人是通过哪种程式得到强化的?面包师检查烤箱看饼干是否烤好的行为,是通过哪种程式得到强化的?三明治店铺在顾客每购买10个三明治后免费赠送1个三明治,使用了哪种强化程式?
答案见附录D
学习目标问题 7-11 惩罚与负强化有什么不同?惩罚如何影响行为?
强化会使行为增加,而 惩罚 (punishment)则相反。因此,负强化会通过消除负面的事物增加先前行为的频率,而惩罚则包括任何能够减少先前行为的事件(表7.3)。迅速而确定的惩罚措施能够有力地抑制不想要的行为,触碰违禁物品而遭到电击的老鼠和摸到烧热的火炉而被烫伤的孩子都会学到不再重复这样的行为。
惩罚:任何能够减少先前行为的事件。
表7.3 减少行为的途径
大部分冲动犯罪会更多地受到迅速而确定的惩罚措施的影响,而不易被严厉刑罚所威胁(Darley & Alter, 2013)。因此,亚利桑那州对首次醉驾者的刑罚尤其严厉时,该州的醉酒驾驶率并未发生较大变化。但是,堪萨斯州警察在犯罪高发区巡逻,使得惩罚来得更加迅速而确定时,该州的犯罪率就开始急剧下降。
研究惩罚对养育子女有什么意义呢?一项对超过16万名儿童的分析发现,体罚并不能纠正有害行为(Gershoff & Grogan-Kaylor, 2016)。在美国心理学会关于体罚的无效性和潜在危害的决议支持下,心理学家指出了体罚的五个主要缺点(APA, 2019;Finkenauer et al., 2015; Gershoff et al., 2018; Marshall, 2002)。
1.受惩罚的行为只是被抑制,不会被遗忘。 这种暂时的状态可能会强化父母的惩罚行为(负强化)。儿童一说脏话,父母就施加惩罚,于是父母在旁边时,儿童就不说脏话了,所以父母会觉得惩罚成功阻止了儿童的行为。难怪打屁股会受到这么多家长的欢迎,以至于全世界有60%的儿童都受到过打屁股或其他方式的体罚(UNICEF,2014)。
2.惩罚并不能取代不想要的行为。 体罚可以减少乃至消除不想要的行为,但它并不能为合适的行为提供指导。如果一个儿童因为在车上高声尖叫被打了屁股,他可能会停止尖叫,但还会继续乱扔食物或偷玩哥哥的玩具。
3.惩罚会让人学会区分各种情况。 在操作性条件反射中,一个生物体学习到某些反应会得到强化而其他反应不会时,刺激分化现象就会出现。惩罚是否有效地让孩子停止说脏话了?还是孩子只学到了在家里说脏话是不对的,而在其他地方说脏话却可以呢?
4.惩罚可以让人学会恐惧。 在操作性条件反射中,一个生物体对类似刺激的反应也得到强化时,就出现了泛化现象。受到惩罚的儿童不仅会把恐惧与不受欢迎的行为联系起来,还会把恐惧与实施惩罚的人或发生惩罚的地方联系起来。因此,儿童可能会害怕爱惩罚的老师,并且开始不爱上学,或者变得焦虑不安(Gershoff et al., 2010)。由于这些原因,现在大多数欧洲国家和美国31个州都禁止公立学校体罚学生。截至2019年,已有156个国家出台法律禁止在家中打儿童。芬兰是第二个通过此类法律的国家,该国的一项大型调查显示,这类法律出台后出生的儿童确实很少挨打(Österman et al., 2014)。
5.体罚树立了以暴力解决问题的榜样,可能会增加儿童的攻击性。 研究发现,挨打的儿童有攻击性增强的风险(MacKenzie et al., 2013)。比如,众所周知,许多攻击性强的罪犯和虐待型父母都出自虐待型家庭(Straus & Gelles, 1980; Straus et al., 1997)。
一些研究人员对这种逻辑表示质疑。他们认为,受到体罚的儿童更具攻击性的原因,与接受过心理治疗的人更容易患上抑郁症的原因相同,是因为他们之前就存在需要治疗的问题(Ferguson, 2013a; Larzelere, 2000; Larzelere et al., 2019)。那么,儿童是挨了打才产生了不良行为,还是因为不良行为才挨了打呢?两者间的相关关系并不能给我们一个答案。
既然如此,父母应该如何管教孩子呢?许多心理学家都提倡“计时隔离”这种正强化:让不良行为的孩子无法得到他们期望的刺激,比如兄弟姐妹和父母的关注(Dadds & Tully, 2019)。有效的计时隔离通常必须伴有明确的期望,即用另一个积极行为来取代问题行为,比如让儿童告诉兄弟姐妹说他们的言行伤害了自己,而不是对他们施以拳脚(O’Leary et al., 1967; Patterson et al., 1968)。儿童由此认识到,计时隔离有助于让家庭拥有更多积极和关爱的互动。
一些青少年罪犯的父母往往不知道如何在不打不骂、不拿惩罚威胁儿童的情况下让儿童做出他们期望的行为(Patterson et al., 1982)。培训项目有助于使可怕的威胁(“一分钟内把房间收拾干净,否则就别想吃晚饭!”)转变为积极的激励(“你把房间收拾好,我们等着你吃饭”)。停下来想一想吧,把威胁要施加惩罚的话语改为积极的措辞,难道不是同样有说服力,甚至可能更有效吗?例如,“你不完成家庭作业,就别想玩玩具车了”可以如何转化为更积极的表述呢?
在课堂上也是如此,教师也可以这样给学生反馈,多说“不对,但你可以这样做”和“是的,就是这样”。这样的回答可以减少许多不想要的行为,同时强化了教师所期望的行为。要记住的一点:惩罚是告诉你不要做什么,而强化是告诉你要做什么。因此,惩罚训练的是一种特殊的道德,而不是积极的义务,它更侧重于禁止,使人不去做某些事情(Sheikh & Janoff-Bulman, 2013)。
斯金纳称,惩罚通常教会人们如何避免受惩罚。现在,大多数心理学家都赞成强调强化的做法,即注意到他人所做的正确的事情,并肯定他们的做法。
“虽然拍拍背与踢屁股只有几块脊椎骨的距离,但在结果上却领先很多。”
——出版商贝内特·瑟夫
检索练习
RP-3 用以下术语填空:正强化(PR),负强化(NR),正惩罚(PP)或负惩罚(NP)。
答案见附录D
学习目标问题 7-12 为什么斯金纳的观点会引起争议?他的操作性条件反射原理如何应用?
B. F. 斯金纳(1904—1990)
“曾有人问我,‘你是否会像看待你所研究的生物那样看待你自己呢?’答案是肯定的。据我所知,我在任何特定时刻的行为都只不过是我的遗传基因、个人经历和当前环境的产物。”
B. F. 斯金纳直言不讳的观点捅了马蜂窝。他认为是外在影响塑造了行为,而不是内在思想和感受。他认为心理科学不需要神经科学,“行为科学独立于神经学之外”(Skinner, 1938,1966)。他还敦促人们使用操作性条件反射原理来影响他人在学校、工作和家庭中的行为。由于行为由其结果所塑造,他认为我们应该采取奖励来激励更多期望的行为。
批评家则对这些观点表示反对,他们认为斯金纳忽视了个人自由,并试图控制人的行为,从而使人失去了人性。斯金纳则反驳称,外在的结果已经随意地控制了人的行为,为什么不把这些结果用来改善人类的生活呢?强化物不是比家庭、学校和监狱所采用的惩罚措施更人性化吗?如果想到我们过去的经历塑造了我们就感到羞愧难当的话,这样的想法难道不是给我们带来了希望,让我们得以应用操作性条件反射来塑造我们的未来吗?
在后面的章节中,我们会学习心理学家如何应用操作性条件反射原理帮助人们缓解高血压或习得社交技能,操作性条件反射也同样被应用于学校教育、体育训练、计算机程序、工作场所和家庭环境中。操作性条件反射原理还可以促进我们的自我完善(Flora, 2004)。
学校教育方面 50多年前,斯金纳和其他人不断努力,希望有一天能够让“机器和教科书”可以对正确反应进行即时强化,从而一步一步地对学习行为进行塑造。他们说:“这样的机器和教科书将彻底改变教育,使教师能够专注于每个学生的特殊需要。”斯金纳说:“好的教学需要做到两件事:必须立即告知学生他们所做的事情是否正确,如果是正确的,还必须立即引导他们采取下一步行动。”
斯金纳可能很乐于见到,他的许多教育理念如今都成为可能。过去的教师很难根据每个学生的学习速度来调整备课进度,也很难提供及时的反馈。而在线适应测验则可以做到这两点。学生根据自己的理解程度,按自己的进度和节奏完成测验,并且立即得到关于学习成果的反馈——包括个性化的学习计划。
体育训练方面 同其他方面一样,塑造运动表现行为的关键首先是对小的成就进行强化,随后逐渐增加挑战性。高尔夫初学者可以先从距离较短的推杆开始学习,随着技巧越加熟练,越推越远。棒球运动的初学击球手可以先从对10米外投出的大号球进行半挥棒开始,这会让他们立即体会到击球的乐趣。随着不断成功击球,击球手逐渐建立信心,在各个级别都达到熟练的程度,投手就开始逐渐后退,最终引导击球手适应标准棒球的击球距离。与传统训练方法训练出的球员相比,这种行为方法训练出来的球员的技能提升速度更快(Simek & O’Brien, 1981, 1988)。
计算机程序方面 研发人员使用强化原理,创造出了能够模仿人类学习的人工智能程序。这种人工智能程序可以比人类更快地完成各种动作,比如下棋、打扑克或玩多人电子游戏《雷神之锤III》,能够迅速学会重复强化的行为,避免受惩罚的反应(Botvinick et al., 2019; Jaderberg et al., 2019)。人工智能程序正在教我们了解人类学习的极限。
工作方面 管理者如何成功激励员工,教练又如何激励球员们呢?即时的强化,以及对具体的、可达成的行为进行奖励是有用的,而对定义模糊的“美德”进行奖励则毫无用处。人与鸽子不同,对延迟的正强化物和负强化物都会做出反应。通用汽车公司首席执行官玛丽·巴拉(Mary Barra)就深谙此道。在2015年,她着重关注工人的高绩效,并因此发放了金额创纪录的奖金(Vlasic, 2015)。但奖励不一定是金钱上的,效率高的管理者只需要走进办公室,真诚地表扬员工的良好工作表现就足以达到激励的目的。
家庭教育方面 正如前文所述,父母也可以从操作性条件反射实践中学习。家庭教育培训的研究人员提醒称,父母说了“赶紧睡觉”后,又因儿童的抗议或违抗而让步,其实是强化了儿童这种抱怨和争吵行为(Wierson & Forehand, 1994)。而父母被激怒后,则可能会大声斥责或者会威胁动手打骂孩子,儿童被吓住之后才开始听话,这又强化了父母的愤怒行为。久而久之,就形成了消极的亲子关系。
为了打破这种恶性循环,父母应该记住塑造的基本法则:注意儿童所做的正确的事情,并对此表示肯定。在儿童表现良好时,父母应给予他们应有的关注和其他强化物。如果你希望自己的孩子安全驾驶,就对其安全驾驶给予奖励(Hinnant et al., 2019)。针对一个特定行为进行奖励使其不断强化。在儿童行为不当时,不要对他们大声斥责或施以拳脚,只需要对他们解释错误的行为,并收走他们的平板或玩具,或给予短时间的“计时隔离”。
改变行为方面 最后,我们在自己的生活中也可以应用操作性条件反射。为了强化期望的行为(如改善学习习惯),消除不期望的行为(如戒烟),心理学家建议采取以下步骤:
1. 用可以测量的形式确定一个现实的目标,并大声宣布出来。比如,你可以树立一个目标,比如每天增加一小时学习时间。为了坚定地实现承诺,增加成功的概率,你可以与朋友分享这个目标。
2. 决定自己将在何时、何地、如何努力实现目标。花点时间来进行计划。不论是北美的大学生,还是瑞典的企业家,那些明确自己如何实现目标的人,会更加专注于自己的目标,并且能够更快地实现它们(Gollwitzer & Oettingen, 2012; van Gelderen et al., 2018)。
3. 监测自己从事期望行为的频率。你可以记录自己目前的学习时间,注意自己在什么环境下才能够学习(我们开始编写教科书时,每个人都记录了自己工作的时间,惊讶地发现我们居然浪费了这么多时间)。
4. 强化期望的行为。人们对长期目标的坚持主要由即时奖励来推动(Woolley & Fishbach, 2017)。因此,为了增加学习时长,你可以在每天完成额外一小时的学习后,再给自己一个奖励,比如吃点零食或参加喜欢的活动。只有达到每周的实际学习目标后,周末才可以和朋友一起参加各种活动。
5. 逐渐减少奖励。随着你越来越习惯新行为,多给自己精神上的赞许,减少物质上的奖励。
自问
思考自己的坏习惯,你可以如何通过操作性条件反射来打破它?
检索练习
RP-4 乔斯琳(Joslyn)在学前班一直做出不当行为,她的老师一再责备她,但无济于事。为什么乔斯琳的不当行为还在持续,她的老师能做些什么来改变这一情况?
答案见附录D
学习目标问题 7-13 操作性条件反射与经典条件反射有什么不同?
经典条件反射和操作性条件反射都是联想学习的形式之一。两者都涉及习得、消退、自发恢复、泛化和分化,但这两种学习形式也有一定的区别。通过经典条件反射,我们会把不同的刺激物联系起来,而这些刺激物并不受我们控制,我们会自动做出反应,即应答性行为(表7.4)。通过操作性条件反射,我们将自己的行为与行为的后果联系起来,这些行为会作用于环境,产生强化或惩罚的刺激(操作性行为)。
表7.4 经典条件反射和操作性条件反射的比较
在接下来的章节中我们将看到,生物学因素和认知过程都会对经典条件反射和操作性条件反射产生影响。
“哦!这学问,真是个好东西。”
——威廉·莎士比亚
检索练习
RP-5 狗对与食物配对的声音产生流涎反应是一种______行为,老鼠按压杠杆获取食物是一种______行为。
答案见附录D