心理学（第三版）最新章节_丹尼尔·吉尔伯特,丹尼尔·夏克特,丹尼尔·韦格纳,马修·诺克著

观察：发现人们做什么

观察是指使用个体的感官来获取事件（例如，一场风暴或者游行）或者物体（例如，一个苹果或者一个人）的各种属性。例如，当你观察一个圆的红苹果时，你的大脑利用进入你眼睛中的光线模式勾勒出一个关于苹果形状、颜色等特征的指代物。这种非正式的观察对于买水果来说没有问题，但是不能用来做科学研究。为什么呢？第一，众所周知，非正式的观察结果不稳定。同一个苹果在日光下呈现出红色，在夜晚呈现出深红色，或者对于一个人来说是圆的，对另一个人来说是椭圆形的。第二，非正式的观察不能告诉我们那些我们感兴趣的所有属性。不管你看了多长时间，看得多努力，仅仅通过注视苹果，你不可能觉察到苹果的清脆程度或者胶质果肉的情况。

幸运的是，科学家发明了一些技巧来解决这些问题。在下面的第一节里（测量，measurement），我们将看到心理学家如何设计工具，以及如何使用它们来做测量。在第二节里（描述，description），我们将看到心理学家一旦得到了他们的测量结果，接下来做什么。

测量

测量需要做哪两件事？

在相当长的一段人类历史里，人们不知道自己的年纪有多大了，因为根本没有记录时间的方法，也没有重量、体积、密度、温度，或者其他种种类似的度量。今天我们生活在一个充满了尺子、时钟、日历、里程表、温度计和质谱仪的世界。测量不仅仅是科学的基础，它也是现代生活的基础。但是测量到底需要什么呢？不管我们想测量地震的强度，还是分子之间的距离，亦或是一位登记在册的选民的态度，我们必须要做两件事——定义我们希望测量的属性，然后找到一种方式去探测它。

定义和探测

以前你说“我就需要一秒钟”的时候，你大概不会知道你所说的话涉及原子衰变。时间的每一个单位都有操作性定义， 操作性定义 是指用具体的、可测量的术语对研究对象的属性进行的描述。一秒钟的操作性定义是指，当铯-133原子的基态未受外磁场的干扰时，该原子的超精细能级之间跃迁所吸收或者发射出的9 192 631 770次固有微波振荡周期所需的时间（光说完这个定义就需要大约6秒钟）。需要专门的工具来精确地计数铯-133衰减时放射出的光波周期，这个工具可以是能够探测操作性定义所规定的条件的任何事物。“原子钟”这个工具可以计数光波的周期，当它计数到9 192 631 770次时，这就是正式的一秒钟所需的时间。

我们测量物理属性所遵循的步骤与测量心理属性所遵循的步骤完全一样。例如，如果我们想要测量一个人的智力、害羞程度或者幸福感，我们必须先确定该属性的操作性定义——也就是说，详细说明一些可以显示出其属性的具体的、可测量的事项。例如，我们可能把幸福感定义为一个人微笑的频率。一旦我们这样来定义的话，我们只需要一个检测微笑的工具，例如计算机辅助的摄像机，或者就用人眼来观察。科学测量的关键是确定待测事物的操作性定义，并且有合适的工具测量它。

效度、信度和检测力

一个好的操作性定义和好的测量工具应该具有哪些特性？

定义和探测一个心理属性（例如幸福感）有很多方法，那么哪种方法是最好的呢？操作性定义的最重要特征是具有效度，效度是指使用具体的测量工具或手段能够准确测量出所需测量属性的程度。例如，微笑的频率这个具体的事件是定义幸福感这一属性的有效方式，因为正如我们所知，当人们感到幸福的时候，倾向于更多地微笑。幸福的人是否会吃得更多、更健谈，或者花更多的钱吗？嗯，也许是这样，但也可能不是这样。因此，这也是为什么大多数人可能将食物的消耗量、口语表达或者财务开支视为幸福感的无效测量指标（尽管它们可能是测量其他事物的有效指标）。在某种程度上，人们对效度的判断仁者见仁智者见智，但是大多数人应该同意微笑的频率相对于吃东西、说话或者花钱来说，可以更加有效地、可操作地定义幸福感。

接下来，测量工具最重要的特征是什么？事实上，有两个重要特征。第一，一个好的测量工具应该具有信度，信度是指在任何情况下，用相同的测量工具测量同一个事物，可以得到相同测量结果的倾向性。例如，如果一个人星期二与星期三微笑的次数一样多，那么检测微笑的工具在这两天应该测量到相同的结果。如果这个工具得到了不同的结果（也就是说如果这个工具探测到了实际不存在的差异），那么它就缺乏信度。第二，好的工具应该具有检测力，所谓 检测力 就是测量工具可以精确地探测出所测量属性的小幅度变化的能力。如果一个人在周二微笑的次数只是比周三稍微多一点儿，那么一个好的微笑检测器应该可以在这两天得到不同的结果。如果它得到相同的结果（也就是说如果它不能检测到实际存在的微小差异），那么这个检测器可能缺乏检测力（见图2.1）。

需求特征

一旦我们有了有效的定义，以及一个可靠、有力的工具，那么我们是否就准备好可以测量行为了？是的，只要我们想要测量变形虫的行为，或者雨滴，或者其他任何不会在意我们是否观察它的事物，那我们就可以直接开始测量。但是，如果我们想要测量人类的行为，那么我们还有一些工作需要做，因为当我们想要发现人们通常的行为时，一般人都会试图按照他们认为的我们想要看到的或者期望的方式来做出行为表现。 需求特征 是指观察过程中的某些情境因素，这些因素导致人们按照他们所认为的别人期望的方式来做出行为表现。我们之所以将其称为需求特征，是因为这些特征似乎是“需要”或者要求人们说出或者做出某些特定的事情。当你的爱人问你：“这条牛仔裤让我看起来胖吗？”恰当的回答总是“不”。如果曾经有人问过你这个问题，那么你就体验过被需要。正如需求特征通常所显示的那样，它使测量行为变得困难起来。

图2.1 测量。

在测量属性时有两个步骤。

当人们知道自己正在被观察时，他们会如何反应？

心理学家避免出现需求特征问题的方法是不带着自己已有的先验知识来观察人们。 自然观察法 是通过在人们生活的自然环境中，采用不干扰他们的方式观察他们，从而收集科学证据的一种手段。例如，采用自然观察法发现，在餐馆里，一起聚餐的人数越多，留下来的小费金额越少（Freeman等，1975），在杂货店里，饥饿的购物者购买的冲动性物品更多（Gilbert，Gill和Wilson，2002），高尔夫球手在与多个对手同时打球时更可能作弊（Erffmeyer，1984），在单身酒吧里，男人并不总是去接近最漂亮的女人（Glenwick，Jason和Elman，1978），奥林匹克运动员在赢得铜牌时比赢得银牌时微笑更多（Medvec，Madey和Gilovich，1995）。这些结论都是心理学家在当事人不知道自己正被观察的情况下进行观测得到的。如果这些进餐的人、购物者、高尔夫球手、单身汉和运动员意识到自己正被仔细观察的话，那么心理学家就不太可能观察到与上面相同的结果。

不幸的是，自然观察法并不总是可以有效地解决需求特征这样的问题。第一，心理学家想要观察的一些事情并不会自然发生。如果我们想要知道遭受了感觉剥夺的人完成运动任务（例如打字）的绩效是否更差，我们即使在商场转上很长一段时间，也未必有可能遇到几十个蒙着眼睛带着耳塞的人碰巧路过而且开始打字。第二，心理学家想要观察的一些事情只能通过与一个人的直接互动才能收集到，例如，通过实施调查、进行测验、访谈或者把人放到仪器设备里。如果我们想要知道人们担心自己死亡的频率有多高，人们记忆自己高中同学的名字的准确度有多高，人们解决一个逻辑难题有多快，或者当人们感到嫉妒的时候，他们的大脑产生的电活动有多少，那么仅仅躲起来观察他们是不可能获得结果的。

幸运的是，还有一些其他办法可以避免出现需求特征。例如，当人们做出的行为不能被确认为是他们自己做出的，他们就不太会受到需求特征的影响。心理学家经常利用这一点，让人们私下里做出反应（例如，让他们在独自一人时完成问卷）或者匿名地做出反应（例如，不收集个人信息，诸如人名或者住址）。另一个心理学家经常采用的避免出现需求特征的技巧是测量那些不容易伪装的行为。例如，如果一个人的行为不受他的主观意志的控制，那么这个行为就不会受到需求特征的影响。你可能不希望心理学家知道你对她请你阅读的明星八卦杂志非常感兴趣，但是你不能阻止你的瞳孔放大，因为一旦你对看到的东西感兴趣，瞳孔就会自然放大。当人们不知道研究者期望的东西是什么，什么行为与之相关时，他们的行为也不会受到需求特征的影响。例如，你可能想让心理学家相信你正聚精会神地阅读她请你读的华尔街日报上的文章，但是你可能意识不到，当你聚精会神时你的眨眼速度会变慢，因此你不太可能伪装出慢速的眨眼。

为什么被试单盲设计非常重要？

避免出现需求特征的一个最好办法是不让被观察的人们知道观察的真正目的。当人们对观察的目的一无所知时，他们不能按照他们所设想的他们应该如何表现来做出行为，因为他们根本不知道他们该如何表现。例如，如果你不知道心理学家正在研究音乐对心境的影响，当音乐响起的时候，你不会感到自己有义务微笑。这就是为什么在研究结束之前，心理学家通常不告诉被观察的人，他们正在进行的观察研究的真正目的是什么。

当然，人们非常聪明和好奇，如果心理学家不告诉他们观察的目的，人们通常都会试图自己弄明白。这就是为什么心理学家有时使用掩饰故事（cover stories）或者误导性的解释来故意使人们不能觉察到观察的真实目的。例如，如果心理学家想要知道音乐如何影响我们的心境，他或者她可能会故意告诉你这个研究的目的是考察当播放背景音乐时，人们能够多快地解决逻辑难题。（在这一章的最后，我们将讨论欺骗研究参与者所涉及的伦理问题。）另外，心理学家可能会设计并使用填充项目，或者无意义的测量来误导你，使你无法获知观察的真正目的。所以，有时候心理学家可能会问你好几个问题，这些问题的答案是他或者她真正感兴趣的（你现在有多幸福？），还会问你几个他们并不关心答案的问题（你更喜欢猫还是更喜欢狗？）。单从问你的这些问题来看，你很难猜测观察的真实目的。

文化与社区最乐于助人的地方

加利福尼亚大学弗雷斯诺分校的罗勃.勒范恩（Robert Levine）将他的学生派到23个大型的国际化都市进行一项实地观察研究。这些学生的任务是在自然的环境中观察助人行为。在这个实验的两个版本中，他的学生要么假装是盲人，要么假装受伤，正准备穿过马路，与此同时，另一个学生站在一旁观察是否有人会上前帮助他们。第三个版本的实验中，一名学生丢下一支钢笔，看是否有人会捡起来。

结果表明，不管是哪个城市，人们在这三种情况下都会施以援手，但是不同的城市之间的助人行为却有非常大的差别。在这项研究中，巴西的里约热内卢首屈一指，其总体的助人行为比率为93%，成为最乐于助人的城市。马来西亚的吉隆坡的分数最低，只有40%，纽约市的分数排在倒数第二，为45%。平均来看，拉丁美洲的城市都属于最乐于助人的城市（Levine，Norenzayan和Philbrick，2001）。

观察者偏差

被观察的人并不是唯一能够让测量的结果变得有点儿棘手的人。在一项研究中，要求心理学课上的学生测量老鼠学习走迷宫的速度（Rosenthal和Fode，1963）。一些学生被告知他们的老鼠已经被养殖成了“迷宫迟钝型”的老鼠（即学习走迷宫很慢），另一些学生被告知他们的老鼠被特殊养殖成“迷宫聪明型”的老鼠（即学习走迷宫很快）。尽管所有的老鼠实际上属于同一个品种，但是那些认为自己在测量迷宫迟钝型老鼠的学生报告他们的老鼠学习迷宫的时间长于那些认为自己在测量迷宫聪明型老鼠的学生报告的时间。换句话说，测量的结果精确地反映出学生们期望的结果。

为什么实验者不知道研究目的非常重要？

为什么会发生这样的事情？第一，期待会影响观测的结果。我们在测量老鼠走迷宫的速度时很容易出错，并且我们的期望经常决定了我们犯错误的类型。是否老鼠把爪子越过了终点线就算学会了走迷宫？如果一只老鼠睡着了，是否应该让秒表继续跑着，或者应该把这只老鼠叫醒，并再给它一次机会？如果一只老鼠用18.5秒跑完了迷宫，那么在日志本上记录数据时应如何处理小数点后的数字？这些问题的答案可能依赖于认为这些老鼠是聪明还是迟钝。这些为老鼠计时的学生们可能尽力做到诚实、警醒、公平和客观，但是他们的期待以一种非常微妙的方式影响他们观察的结果，他们可能既没有觉察到，更没有加以控制。第二，期待会影响实际发生的事情。那些期待自己的老鼠学习得更快的学生可能无意识地做了一些事情，帮助老鼠学习得更好，例如，当聪明的老鼠看向错误的方向时，嘀嘀咕咕地抱怨“哎呀，不要”，或者抚摸迟钝的老鼠时缺乏感情。（我们将在社会心理学那一章更加充分地讨论上面这些现象。）

因此，观察者的期待不但能够影响他们观察到的结果，还会影响他们所观察的人的行为。心理学家使用许多技术来避免这些影响，其中一个最普遍的技术是双盲观察法，这指的是一种隐藏其真实目的，既不让观察者知道，也不让被观察者知道的观察法。例如，如果这些学生并没有被告知哪些老鼠是聪明的，哪些是迟钝的，那么他们就不会对他们的老鼠产生任何期待，因而就不可能对测量的结果产生影响。这也是为什么心理学领域有个常用的做法，就是使观察者和研究的参与者都不知道研究目的。例如，研究助手经常实施测量，如果他们不知道正在研究什么内容或者是为什么研究，那么他们也无法产生对被观察的人们将要或者应该做什么行为的任何期待。事实上，当今的很多研究经常被世界上最盲目的实验者实施——计算机——它可以呈现给人们信息，并且毫无预期地测量人们的反应。

描述

你现在知道如何下一个有效的操作性定义，知道如何设计一个可靠的、具有检测力的工具，知道如何使用工具，并且避免出现需求特征和观察者偏差。那么实施了上述步骤之后你得到了什么呢？你得到了一大张写满了数字的纸。如果你像大多数人一样的话，这张写满数字的纸似乎没有提供多少信息。不要担心，多数心理学家和你的感觉差不多，这也就是为什么他们用两个方法来使这张写满了数字的纸变得有意义起来：图示和描述性统计。

图示

什么是频率分布？

一图胜千言，但是一图更胜百万数字。正如你将要在“感觉与知觉”一章中所学习的，视觉是我们最复杂的感觉，人类通常觉得视觉呈现的事物比数字呈现或者语言呈现的更加容易理解。心理学家也是人，他们经常将收集到的测量结果进行图示化。最普遍的一种方法是 频率分布 ，这是通过每个测量值出现的次数分布来对测量结果进行图示的一种方法。图2.2呈现了一对代表男性组和女性组在完成精细动作（即用手操作事物）能力测试时的理论假定成绩的频率分布。每个可能的测试分数都标示在横坐标上。每个分数被观测到的次数（或者频率）标示在纵坐标上。尽管一个频率分布图可以呈现出任何形状，但是通常的形状是钟形曲线，其专业的名称是高斯分布或者 正态分布 ，是指一种测量频率在中间最高，而在两端对称地递减的数学方式定义的分布。正态分布的数学定义并不重要。（当然，对你而言也许是这样，不过，对于统计学家来说就比较重要了。）对你来说，最重要的是你自己可以很容易地看到：正态分布是对称的（即左半边是右半边的镜像），在中间有一个峰，并在两端逐渐减小。

图2.2 频率分布

图2.2的图示一览无余，这是一张写满数字的纸根本无法做到的。例如，分布图的形状立即就可以让你看出大部分人具有中等的运动能力，只有少数人具有特别好或者特别差的运动能力。你也可以看到男性分数的分布相对于女性分数的分布向左位移了一点儿，这使你立即就可以看出女性倾向于具有比男性更好的精细运动能力。最后，你可以看到这两个分布有大量的重叠，这告诉你尽管女性的运动能力倾向于比男性更好，但是仍然有许多男性比一些女性具有更好的精细运动能力。

平均来说，男性的身高比女性更高。但是，仍然有许多女性（比如克莱尔·格兰特［Clare Grant］）比许多男性更高（比如她的丈夫塞思·格林［Seth Green］）。

描述性统计

频率分布图描述了每一个测量值，因此提供了一幅全面和完整地展示这些测量值的图画。但是，有时一幅全面和完整的图画包含有太多太多的信息。当我们问一个朋友她最近怎么样，我们并不想让她展示给我们她在过去6个月每天的幸福感分数的频率分布。我们只是想知道能够准确反映出这个图所提供的本质信息的一个简略的概述（即“我一直过得挺好”，或者，“我最近生活有些起伏”）。在心理学中，能够准确反映频率分布的本质信息的简略概述叫做描述统计。有两种重要的描述性统计：描述频率分布集中趋势的描述性统计量与描述频率分布变异性的描述性统计量。

集中趋势描述的是那些倾向于靠近中点的测量值，或者频率分布中点的数值。当朋友说她一直“过得挺好”，她是在描述她这段时间的幸福感的频率分布的集中趋势（或者中点的大致位置，见图2.3）。最常用的三个集中趋势的描述指标是：众数（观测频率最高的测量值）； 平均数 （所有测量值的平均数）；中数（居于所有测量值中间的数值，也就是大于或者等于一半测量值，同时小于或者等于另一半测量值）。每个描述性统计量的计算方法如图2.4所示。当你听到一个描述性统计量时，诸如“美国大学生平均每天睡8.3小时”，你听到的是关于频率分布的集中趋势描述（在这个例子里，是平均数）。

这个图显示了假定的男性组和女性组在一个精细动作能力测试上的得分情况。测试得分沿着横坐标呈现，每个得分被观测到的频率沿着纵坐标呈现。

图2.3 两类描述性统计。

描述性统计被用来描述频率分布的两种重要特征：集中趋势（大多数分数分布在哪里？）和变异性（这些分数与其他分数差别有多大？）。

图2.4 一些描述性统计量。

这个频率分布展示的是15个人在7点计分测试上的得分。描述性统计量包括集中趋势的度量（例如平均数、中数和众数）和变异性的度量（例如全距和标准差）。

图2.5 偏态分布。

当频率分布是正态时（a），平均数、中数和众数都是相同的，但是当分布是正偏态（b）或者负偏态（c）时，这三个集中趋势的测量值就大不一样了。

在正态分布里，平均数、中数、众数都是相同的数值，但是当分布不是正态时，这三个描述性统计量就不一样了。例如，想象你测量40个大学教授和马克·扎克伯格（Mark Zuckerberg）的净资产。你的测量结果的频率分布就不会是正态的，而是正偏态。你可以在图2.5中看到，正偏态分布的众数和中数比平均数低得多，这是因为平均数更容易受到单个极端测量值的影响（在刚才的例子里，如果你过去几年不是都在睡觉的话，应该知道极端值是马克·扎克伯格的净资产）。当分布变成偏态时，平均数被拉向分布的尾端，众数仍然停留在峰值的附近，中数处于平均数和众数之间。当分布是偏态时，只用单个集中趋势的度量会误导整个测量的结果。例如，你刚才测量的平均净资产可能是每人大约十亿美元，但是这使得那些大学教授看起来比他们的实际情况要富有很多很多倍。如果你提到净资产中数是300000美元，净资产众数是288 000美元，那么你就为人们的净资产状况提供了更好的描述。事实上，当你听到一些关于“平均人”的新闻，但是没有听到任何关于频率分布形状的报道，那么你应该对此心存怀疑。

当马克·扎克伯格走进一间屋子时，他可以戏剧性地大幅增加屋子里人们的平均收入，但是却不怎么会改变中数，而且根本不能改变众数。脸谱网（Facebook）正在致力于改变这个现状。

集中趋势描述的是频率分布中每个测量值所处的位置，而变异性描述的是测量值彼此之间差异的程度。当你的朋友说她“最近生活有些起伏”，她提供了一个简要的概述，描述了她在不同时间测量自己的幸福感时，其结果倾向于彼此不同。变异性最简单的描述就是全距，它是用频率分布中最大的测量值减去最小的测量值得到的数值。相对于全距大时，当全距小时测量值之间的变化较小。全距易于计算，但是就像平均数，它极易受到单个测量值的影响。如果你说你测量到的人们的净资产从40000美元至140亿美元不等，听众可能会以为这些人的净资产在彼此之间都具有非常显著的差异，而事实上，除了一个来自于加利福尼亚的大富翁外，他们都非常相似。

两个测量变异性的统计量是什么？

其他描述变异性的统计量不太受这个问题的影响。例如， 标准差 是一个描述频率分布中每个测量值与该分布的平均值之间的平均差异的统计量。换句话说，指每个测量值与分布的中心点的平均距离有多远。如图2.6所示，两个频率分布可以具有相同的平均数，但是却会有非常不同的全距和标准差。例如，研究表明男性和女性具有相同的IQ平均分，但是男性的IQ分数的全距和标准差更大，这说明相对于女性，男性中的某些个体更有可能比平均水平更聪明，或者更不聪明。

图2.6 男性与女性的IQ。

男性和女性的IQ平均数相同，但是男性的IQ比女性的变异更大。

小结

▲ 测量包括根据具体条件来定义待测属性，并且设计出可以探测这些具体条件的方法。好的测量应该是有效的（它所测量的具体条件，其在概念水平上与感兴趣的属性相关）、可靠的（不管何时，只要测量相同的事物，它都得到相同的测量结果）、具有检测力（只要具体条件存在，它都能够探测到它）。

▲ 当人们知道他们在被观察时，他们会按照他们所认为的应该做的表现来做出行为表现。需求特征是一些情境特征，这些情境特征建议人们，他们应该按照特定的方式来做出行为。心理学家通过在人们生活的自然环境中观察他们或者向人们隐藏研究期待，来试图减少或者消除需求特征。观察者偏差是一种观察者看到他们想看到的结果或者引起别人按照他们期望的方式那样做出行为表现的倾向。心理学家通过双盲观察法来试图消除观察者偏差。

▲ 心理学家经常采用图示的方法来描述他们的测量结果，该方法叫做频率分布图，它通常具有特定的形状，也就是正态分布。心理学家也采用描述性统计量来描述他们的测量结果；最普遍的是描述集中趋势的统计量（例如平均数、中数和众数）和描述变异性的统计量（例如全距和标准差）。