心理学基础最新章节_梅锦荣著

第五节

操作条件作用

桑代克（Edward Thorndike）为了证实动物和人类学习的相似性，曾经做了一系列动物学习的研究，并且设计了一个迷笼（见图3—10）以训练猫打开笼子的门闩，到笼外取食（鲜鱼）。在学习的开始阶段，猫试着从笼子中伸出前爪去取鱼，结果不成功，于是在笼子里来回走动，尝试各种各样的行为，不经意地拉开门闩，走出笼子享用鲜鱼。接着猫又被关进笼子里，它又重复先前的反应，直至又拉开门闩，出笼吃鱼。这样的程序重复多次后，猫逐渐减除了无关的反应，到最后一被关进笼子，就拉开门闩，出笼吃鱼。

图3—10桑代克的迷笼设计

桑代克认为动物的学习是慢慢改进的试误学习（见图3—11），是刺激反应联结的逐渐加强，这个过程是有规律的和连续的，图中的连续学习曲线就是表述这个概念。桑代克认为学得的反应是获取强化物的手段或工具，所以这样的学习又称工具式学习。

图3—11猫逃离迷笼的学习曲线
资料来源：Thordike,1911.

刺激与反应的联结因奖赏而逐渐加强（或者因为惩罚而减弱）的现象，称为效应定律。根据效应定律，反应后的满足感越大，反应与刺激的联结就越强。另一方面，反应后的不舒适感越大，反应与刺激情境的联结就越弱。

哈佛大学的斯金纳后来用老鼠和鸽子进行了一系列的工具条件作用实验。斯金纳设计了一个小箱子（称为斯金纳箱，见图3—12）用来训练老鼠压杆取食物或逃避电击，压杆是动物操作环境的行为，所以称这样的学习为操作条件作用。

图3—12斯金纳箱的设置

斯金纳在箱子底部通电，训练老鼠压杆停止电击。这种通过减除厌恶刺激强化反应的历程，称为负性强化。负性强化是在反应后减除嫌恶刺激，加强反应。惩罚是在反应后给予嫌恶刺激，减除反应。惩罚也可去除愉悦刺激，以削弱反应，这种惩罚称为负性惩罚（见表3—5）。

表3—5强化作用与惩罚的类别

基本现象

操作条件作用与经典条件作用有类似的地方，例如习得过程逐渐形成，反应建立后，若不强化就会削弱，削弱后也会自发恢复。在操作条件作用中，鸽子只对亮灯做反应，熄灯不做反应，这是辨别学习。鸽子对黄色灯光反应，对橙黄色灯光也反应，与黄色灯光越相似的刺激，反应越强烈，这和经典条件作用的泛化现象是相似的。至于操作与经典条件作用的差别，见表3—6。

表3—6经典与操作制的比较

*操作条件作用通常不用UCS或UCR这两个术语。
**除了CS-UCS在时间上的接近，CS的预测性也是重要的因素。

次级强化

斯金纳让老鼠在压杆时声音随即出现，然后有食物，让老鼠学得压杆取食的反应。压杆反应经削弱后，又重新启动压杆与声音的联系（但不呈现食物）。一旦老鼠发现压杆有声音，削弱的压杆反应又再次出现。声音足以强化压杆反应，它成了次级强化媒介。以次级强化媒介进行的操作条件作用为次级条件作用，它所建立的操作反而较薄弱。

部分强化

在现实生活中，工作表现好偶然得到的赞许也会强化行为。这是部分强化作用。操作条件作用的部分强化程序分为：（1）比率强化程序；（2）时距强化程序。这两种程序又可按比率和时距是否固定，再细分为不同的部分强化作用（见表3—7）。

表3—7操作条件作用中部分强化作用的安排

一旦建立了行为，部分强化更能维持反应。图3—13为各种部分强化的程序和条件反应的关系。以部分强化的方式维持反应，例如按平均每5分钟仅1次的强化，鸽子也会持续敲啄键盘高达6 000次，由此可见部分强化的高度效果。

图3—13各种部分强化的程序和条件反应的关系

定比强化程序的比率越大，反应率越高，尤其是随着由小至大的比率递增，反应率更由低升高，但在强化后有暂停反应的现象。不定比（或称变比）强化程序则无暂停反应现象，因为不知道酬赏何时会再出现。采用定时强化程序进行训练，反应也会在酬赏后有停顿的现象，接近酬赏的时间，反应频率快速升高。若按不定时（变时）强化程序训练，会出现有规律的高频率反应。换句话说，变比或变时的部分强化作用会维持稳定的高频率反应。定比或定时的部分强化，会按一定的反应次数或按一定的时间反应，反应过后有暂停反应的现象。

依随关系

动物在经典条件作用下习得的是条件刺激和非条件刺激的依随关系（相倚关系），是刺激与强化物的依随关系。在操作条件作用下则是反应与强化物的关系。有时在操作条件作用中，鸽子要辨别在灯亮时啄键盘才会有食物，那么，辨别刺激、反应、强化物就是依随关系的三大要素。辨别学习在人类日常生活中也是非常重要的，在朋友消闲聚会中，可以天南地北几个小时，但在长辈的追悼会上风花雪月多短的时间都不合适。