心理学（第三版）最新章节_丹尼尔·吉尔伯特,丹尼尔·夏克特,丹尼尔·韦格纳,马修·诺克著

解释：发现人们行为表现背后的原因

快乐的人比不快乐的人更健康吗？这应该是一个非常有趣的问题，但是如果能够知道为什么，那么将更加有趣。是否幸福快乐可以使人们更健康？是否保持健康可以使人们更快乐？是否富有可以使人们健康和快乐？通常，科学家希望回答这些问题，并且已经提出了一些利用测量手段的聪明方法来解答这些问题。在接下来的第一部分里（相关），我们将仔细讨论那些可以告诉我们两个事物之间是否相互关联的方法。在第二部分里（因果），我们将仔细讨论那些可以告诉我们两个事物之间的关系是否为因果关系的方法。在第三部分里（得出结论），我们将看到这些方法可以允许我们得出什么样的结论。最后，在第四部分里，我们将讨论我们大多数人在评判性地思考科学证据时遇到的困难。

相关

你昨夜睡了多久？你能说出多少美国总统的名字？如果你问一打大学生这两个问题，你可能会发现，相对于昨夜熬夜的学生，昨夜睡得好的学生能够说出更多美国总统的名字。类似表2.1中所示的问题答案的模式可能会让你得出结论，睡眠剥夺引起记忆问题。但是，你是基于什么得出这个结论的？你打算如何利用你的测量结果，不但从中得知你所测量的学生的睡眠质量与记忆力的情况，而且也可以从中得知二者之间的关系？

表2.1 假定的表明睡眠与记忆关系的数据

变化模式

测量值反映了物体和事件的属性。我们可以通过比较一系列测量值的变化模式来获悉这些事物之间的关系。当你问大学生关于睡眠和总统的问题时，你实际上做了三件事情：

我们如何知道两个变量是否相关？

➢ 第一，你测量了一对变量，这对变量的取值能够随着个体或者时间变化。（当你第一次上代数课时，你可能惊恐地发现你在小学学习的字母和数字的所有区别都是谎言，你发现数学等式中会包含Xs和Ys，就像包含7s和4s一样，这些字母叫做变量，因为它们可以在不同的情况下被赋予不同的值。这是相同的道理。）你测量了一个变量（睡眠的时间），这个变量的值可以从0至24小时变化，你也测量了第二个变量（说出的总统名字），这个变量的值可以从0至44个变化。

➢ 第二，你一遍又一遍地这样做。也就是你做了一系列的测量，而不是只测量一次。

➢ 第三也是最后，你试图辨别你所做的一系列测量的模式。如果你看一眼表2.1的第二列数字，当你眼睛沿着列往下移动，你会发现这列数值在变化。这一列数值具有特定的变化模式。如果你比较第三列与第二列数值，你将注意到这两列数值的变化模式是同步的：在这个例子里，两列数值都从顶部到底部逐渐增加。这种同步化就是共变或者相关模式（来源于“相关性”）。如果一个变量的数值变化与另一个变量的数值变化同步，那么两个变量被说成是“共变”或者“相互关联”。正如第二列的数值从小到大变化，第三列的数值也是如此。

通过找寻同步变化的模式，我们可以使用测量值发现变量之间的关系。确实，这是一直以来发现变量之间关系的唯一方法，这也是为什么大多数我们所知的这个世界上的事情都可以被认为是相关的。例如，你知道吸烟的人通常比不吸烟的人死得更早，但是这仅仅是一种便捷的方式去说：随着香烟的消费量增加，寿命减少。相关关系不但可以像这样描述这个世界，它们也允许我们按其趋势去预测这个世界。例如，假如给定吸烟和寿命之间的关系，你可以相对自信地预测一个今天开始吸烟的年轻人的寿命，可能不会像另一个不吸烟的年轻人那样长。简而言之，当两个变量相关时，根据一个变量的具体数值我们可以预测另一个变量的数值。

研究者已经发现心理疾患和吸烟之间存在正相关。你能想出三个表明这一相关可能存在的原因吗？

测量相关的方向和强度

如果你预测拥有良好睡眠的人比睡眠剥夺的人具有更好的记忆力，那么你可能大多数时候都是对的。但是，你不会总是对的。统计学家发展出一套方法，通过测量预测所基于的相关的方向和强度来估计这样的预测将会有多精确。

因为相关的方向要么是正向的，要么是负向的，所以方向易于测量。当两个变量具有“一个增多另一个也增多”或者“一个减少另一个也减少”的关系，那么它们之间存在正相关。因此，例如，当我们说更多的睡眠与更好的记忆相关联，或者更少的睡眠与更差的记忆相关联，我们是在描述正相关。相反地，当两个变量具有“一个增多而另一个减少”或者“一个减少而另一个增多”的关系，那么它们之间存在负相关。当我们说吸烟多与寿命短相关联，或者吸香烟少与寿命长相关联，那么我们是在描述负相关。

如何测量相关关系？

相关的方向易于测量，但是强度就有点儿复杂了。 相关系数 是相关的方向和强度的数学测量值，用字母 r 表示（来源于“关系”一词）。像大多数测量值一样，相关系数有一个有限范围。这意味着什么呢？如果你来测量你家乡每天的日照时间长度，测量的结果可能从0到24小时。诸如-7和36.8这样的数字是毫无意义的。同样地， r 的取值可以从-1到1，超出这个范围的数字也毫无意义。那么，处于这个范围之内的数字意味着什么呢？

➢ 如果每次一个变量的数值增加一定的量，第二个变量也增加一定的量，那么这两个变量之间的关系叫做完全正相关， r =1（见图2.7a）。例如，如果每增加30分钟的睡眠，伴随着多记住两个总统的名字，那么睡眠和记忆之间存在显著的正相关。

➢ 如果每次一个变量的数值增加一定的量，而第二个变量的数值减少一定的量，那么这两个变量之间的关系叫做完全负相关， r =-1（见图2.7b）。例如，如果每增加30分钟的睡眠，伴随着少记住两个总统的名字，那么睡眠和记忆之间的存在显著的负相关。

➢ 如果每次一个变量的数值增加一定的量，而第二个变量既不系统地增加数值，也不系统地减少数值，那么这两个变量不相关， r =0（见图2.7c）。例如，如果每增加30分钟的睡眠，有时候伴随着记忆力增加，有时候伴随着记忆力减少，有时候记忆力根本没有变化，那么睡眠和记忆之间不相关。

完全相关非常少见。正如你将在“意识”一章中所学习的，睡眠确实增强记忆的成绩，但是它们之间的关系并不完全相关。并不是每增加18分钟睡眠就可以让你确定地多记住三分之一总统的名字！睡眠和记忆之间正相关（也就是一个增加，另一个也增加），但是它们并不完全相关，因此 r 处于0到1之间的某个位置。但是到底处于哪里呢？这取决于有多少不符合“每多X分钟睡眠=多记住Y个总统名字”这一规则的例外情况。如果只有较少的几个例外，那么 r 将处于更靠近1的位置。但是如果例外的数量增加，那么 r 的值会逐渐往0移动。

图2.8展示的四个例子中，都是两个变量为正相关，但是例外的情况数量不一，并且正如你所看到的，例外的数量极具戏剧性地改变了 r 的值。两个变量可以是完全相关（ r =1）、强相关（例如 r =.90）、中等强度相关（例如 r =.70）、或弱相关（ r =.30）。因此，相关系数是表明两个变量之间关系的方向和强度的测量值。 r 前的加减符号告诉我们关系的方向， r 的绝对值告诉我们例外情况的数量，进而告诉我们当使用这一相关来做预测时，我们能够达到多大程度的自信。

图2.8 不同强度的正相关。

图示说明两个变量之间正相关的不同程度。当不符合 X = Y 规则的例外情况比较少时，相关程度比较强， r 的值更接近1。当不符合这一规则的例外情况比较多时，相关程度弱， r 更接近0。

因果

我们时刻都可以观察到相关关系：汽车与污染、腌肉与心脏病发作、性行为与怀孕。 自然相关 是我们观察到的存在于周围世界中的相关关系，尽管这些相关可以告诉我们是否两个变量之间存在关系，但是它们不能告诉我们这些变量之间是什么样的关系。例如，许多研究发现儿童通过媒体（例如，电视、电影、视频游戏）接触到的暴力场景的数量（变量 X ）与他们行为的攻击性（变量 Y ）之间存在正相关（Anderson和Bushman，2001；Anderson等，2003；Huesmann等，2003）。一个儿童接触到的媒体暴力越多，这个儿童的攻击性可能更强。这些变量之间具有清楚明了的关系——它们不完全正相关——但是这是为什么呢？

第三方变量问题

什么是第三方变量相关？

一种可能是接触到媒体暴力（ X ）导致攻击性（ Y ）。例如，媒体暴力可以教会儿童，攻击性行为是一种发泄愤怒和解决问题的合理方式。第二种可能是攻击性行为（ Y ）导致儿童接触媒体暴力（ Y ）。例如，天生具有攻击性的儿童可能特别倾向于寻找机会来玩暴力视频游戏或看暴力电影。第三种可能是第三个与上述研究问题无关的变量（ Z ）导致儿童具有攻击性（ Y ），并且导致儿童接触媒体暴力（ X ），后两者都不是彼此的原因。例如，缺少成人的监督（ Z ）会使得儿童有机会欺负别人，有机会看成人通常不允许他们看的电视节目，而且不会受到任何惩罚。如果是这样的话，那么接触媒体暴力（ Y ）和攻击性（ X ）就根本不是互为因果，相反，它们都是缺乏成人监督（ Z ）引起的后果。换句话说，攻击性行为和接触媒体暴力就是 第三方变量相关 ，这是指只是因为两个变量都与第三方变量相关，所以这两个变量也相互关联。三种可能的原因如图2.9所示。

图2.9 相关的原因。

如果 X （接触媒体暴力）和 Y （攻击性行为）相关，那么至少有三种可能的解释： X 导致 Y ， Y 导致 X ，或者 Z （一些其他因素，例如缺乏成人监管）导致 Y 和 X ，而不是后两者互为因果。

我们如何仅仅凭着简单的观察来确定这三种可能性中哪种最好地描述了接触媒体暴力和攻击性之间的关系？请你做个深呼吸。答案是：我们不能。当我们观察自然相关时，根本无法排除第三方变量相关的可能性。但是不要不加怀疑地就相信这个说法。我们来试着排除第三方变量相关的可能性，然后看看为什么这些努力都注定会失败。

匹配样本与配对的区别是什么？

确定第三方变量，例如缺少成人监督（ Z ），是否既导致接触媒体暴力（ X ），又导致攻击性（ Y ）的最简单直接的方法是消除成人监督（ Z ）的影响在一群儿童中的差异，然后看是否接触媒体暴力（ X ）和攻击性（ Y ）之间的相关也消失了。例如，我们可以使用匹配样本法来观察儿童，这是一种根据第三方变量，将两组中的参与者匹配成完全同质组的方法（见图2.10）。例如，我们可以只测量被成人监督的确切时间比例为Q%的儿童，这样就可以确保每个接触媒体暴力的儿童与每个没有接触媒体暴力的儿童具有完全一样数量的成人监督时间。还有另外一种方法，我们可以使用配对法来观察儿童，这是一种根据第三方变量，使每个参与者与另一个参与者完全匹配相同的方法。我们可以测量成人监督数量不等的儿童，但是我们可以确保对于我们测量的每个接触媒体暴力、具有Q%的成人监督时间的儿童，我们也测量另一个没有接触媒体暴力、具有Q%的成人监督时间的儿童，这样可以确保那些接触和没有接触媒体暴力的儿童的平均成人监督时间都相同。不管我们使用哪种方法，我们要知道接触和没有接触媒体暴力的儿童成人监督的平均时间相同。所以，如果那些接触媒体暴力的儿童在平均水平上比那些没有接触媒体暴力的儿童有更多的攻击性行为，我们就可以确定缺少成人的监督不是导致这种差异的原因。

图2.10匹配样本与配对。

不管是匹配样本法（左图）还是配对法（右图）都要确保接触和无接触组的儿童具有总体上相同的成人监督时间比例，这样我们观察到的任何两组之间的差异就不会被归因为成人监督的差异。

那么我们把问题解决了，对吗？是的，但并不绝对。匹配样本法和配对法虽然有用，但是它们都没有完全消除第三方变量相关的可能性。为什么？因为即使我们使用这些方法排除了某个特定的第三方变量（例如缺少成人监督），我们不能排除所有第三方变量。例如，就当我们完成这些观察研究时，我们突然发现情绪不稳定可能导致儿童被暴力电视节目或者视频游戏吸引，并且做出攻击性行为。情绪不稳定可能成为一个新的第三方变量（ Z ），我们可能必须设计新的测验来考察它是否能解释接触媒体暴力（ X ）与攻击性（ Y ）之间的相关。不幸的是，我们可以整天毫不费力地不断凭空想出新的第三方变量，每次我们凭空想出一个，我们就必须冲出去使用匹配样本法或者配对法做一个新的测验，来确定这个第三方变量是否是导致接触媒体暴力和攻击性之间相关的原因。

你看到问题所在了吗？有无数多个第三方变量，因此 X 与 Y 相关的原因就有无数多个。因为我们不能使用匹配样本法或者配对法来实施无数多个研究，所以我们不能百分百地确定我们观察到的X 与Y 之间的相关是说明它们有因果关系的证据。第三方变量问题是指，因为经常存在着第三方变量相关的可能性，两个变量之间的因果关系不能从它们之间自然发生的相关关系中推论出来。换句话说，如果我们关心因果关系，那么自然发生的相关就无法告诉我们真正想知道的东西。幸运的是，还有其他方法可以使用。

我们应该把“注册账号”键放在网页的什么位置？网页开发者经常生成网页的两个版本。一些网页访问者看一个版本，另一些看另外一个版本，开发者测量每个版本引发的访问者的点击数量。开发者称之为“A/B测验”，但是科学家称之为实验法。实验的两个关键特征是什么？

配对法和匹配样本法可以消除两组之间的单个方面的差异：例如，接触媒体暴力组和没有接触媒体暴力组儿童之间在成人监督方面的差异。问题是，它们只能消除一种差异，而无数的差异仍然存在。如果我们能够发现一种可以消除所有各种差异的方法，那么我们就可以得出接触媒体暴力和攻击性行为之间是因果关系的结论。如果接触媒体暴力的孩子比未接触的孩子更加具有攻击性，并且如果这两组孩子在除了接触媒体暴力之外的任何其他方面都没有差异，那么我们可以肯定他们接触的程度导致他们攻击性的程度。

事实上，科学家有这种方法。这种方法叫做实验，实验是一种建立变量之间因果关系的方法。理解实验法如何消除两组之间所有差异的最好方式是仔细考察它们的两个关键特征：操纵和随机分配。

操纵

关于实验，你必须知道的重中之重是，你早已经知道了实验的重中之重是什么，因为你毕生都在做实验。想象一下你正使用笔记本电脑在网上冲浪，这时冷不防你的无线网络连接断开了。你猜测另一个设备——比如说你室友的新手机——不知怎么把你从网络上挤掉了。为了验证你的猜测，你会做什么？观察自然相关不会有什么帮助。你可以仔细地记录你何时能够连接和不能连接网络，你的室友何时使用和不使用他的手机，但是即使你观察到了这两个变量之间的相关，你仍然不能得出结论说手机导致你的网络连接断开了。毕竟，如果你的室友害怕巨大的声响，无论何时，只要有雷电交加的暴雨，他就给他妈妈打电话寻求安慰，如果是雷暴使你的路由器关闭，使你的无线网络连接崩溃，那么雷暴（ Z ）就可能既是你的室友使用手机（ X ）的原因，又是你的网络连接问题（ Y ）的原因。

那么，你将如何检验你的猜测？不是观察手机使用和网络连接之间的相关，而是你可以通过故意给你的室友手机上打电话、挂断、再打、再挂断，观察你这么做时，你的笔记本电脑的网络连接的变化，来尝试主动创造相关。如果你观察到“笔记本电脑网络断开”只和“手机通话中”同时发生，那么你可以得出结论，你室友的手机是你上不去网络的原因。你可以把这个手机在eBaya 上卖了，然后被问起时撒个谎了事。你直觉上解决第三方变量问题的这个方法就叫做操纵。操纵是指改变一个变量的值，以确定它的因果力。恭喜！你现在已经是一个专业的操纵者了。

操纵是实验法的关键成分。到目前为止，我们像是参加宴会的宾客一样礼貌地接近科学，拿取提供给我们的事物，并充分利用它。大自然提供给我们不同程度的接触暴力的儿童，以及具有不同程度攻击性行为的儿童，我们忠实地测量这两个变量变化的自然模式，并计算它们之间的相关。这种方式存在的问题是，即使我们做了所有这些事情，我们仍然无法知道我们真正想要知道的东西，那就是，是否这两个变量之间是因果关系。无论我们观察多少匹配样本或配对样本，我们总是无法完全排除第三方变量。但是，实验可以解决这个问题。不同于测量接触暴力和测量攻击性行为，然后计算这两个自然发生的变量之间的相关，实验需要我们完全像你操纵你室友手机的方式来操纵暴力接触。从本质上说，我们需要系统地改变一群孩子是否接触暴力，然后观察他们是否相应地表现出攻击性行为。

有很多方法用来做这个实验。例如，我们可以请一些儿童参加实验，然后让他们中的一半玩一个小时的暴力视频游戏，不让另一半玩。然后，一个小时结束后，我们可以测量两组儿童的攻击性行为，并且比较两组的测量结果。当我们比较测量结果时，我们实质上是在计算我们操纵的变量（接触媒体暴力）与我们测量的变量（攻击性）之间的相关。因为我们是操纵而不是测量接触媒体暴力，我们不需要考虑是否存在第三方变量（例如缺乏成人监督）导致儿童具有相关。因为我们是操纵而不是测量接触媒体暴力，我们不需要考虑是否存在第三方变量（例如缺乏成人监督）导致儿童具有不同的接触媒体暴力程度。毕竟，我们已经知道是什么导致的。是的，我们确实知道！

你如何搞清楚吃60个热狗会不会让你生病？你在第一天里把它们吃了，第二天不再吃，然后看哪天你会呕吐。这就是操纵！顺便说一句，2012年的吃热狗大赛世界冠军乔伊·切斯纳（Joey Chestnut）通过将热狗折叠起来，在10分钟内吃了68个热狗。这也是操纵！

实验法包含了三个关键步骤（以及几个极其令人困惑的术语）：

➢ 第一，我们实施操纵。我们将被操纵的变量称为 自变量 ，因为它处于我们的控制下，所以它独立于实验参与者的言行。当我们操纵一个自变量（例如接触媒体暴力）时，我们至少设置两组参加者：一个 实验组 ，这组人接受一种特定的操纵，一个 控制组 ，这组人不接受特定的操纵。

➢ 第二，在操纵一个变量（接触媒体暴力）的同时，我们测量另一个变量（攻击性）。我们将被测量的变量称为 因变量 ，因为这个变量的值取决于被测量的人们的言行。

➢ 第三也是最后，我们查看我们操纵的自变量是否引起了因变量的变化。图2.11 具体地展示了操纵如何发挥作用。

随机分配

为什么我们不能任由人们自己选择他们将要参加的实验条件？

一旦我们操纵了一个自变量，测量了一个因变量，我们已经完成了实验法所需的两件事情中的一件。第二件事不太符合直觉，但是同样重要。想象一下，我们通过找一组儿童，并问每个儿童他或者她是否愿意参加实验组或者控制组，以此开始我们的接触媒体暴力和攻击性实验。想象一下，一半儿童说他们愿意玩暴力视频游戏，另一半说他们不愿意玩。想象一下我们让这些儿童做他们想做的事情，一段时间后测量他们的攻击性，并且发现玩暴力视频游戏的儿童比不玩的儿童更具有攻击性。这个实验是否允许我们得出玩暴力视频游戏导致攻击性的结论？绝对不是——但是，为什么不是呢？毕竟，我们控制接触与否，就像是否使用手机一样，并且我们也仔细地观察攻击性行为是否会相应地出现。那么，我们哪里做错了？

图2.11

操纵。自变量是接触媒体暴力，因变量是攻击性。对自变量的操纵产生了实验组和控制组。当我们比较这两组的参与者的行为时，我们实际上是计算自变量与因变量之间的相关。

我们错在让儿童自己决定他们是否玩暴力视频游戏。毕竟，要求玩这些游戏的儿童可能与那些不要求玩的儿童在很多方面存在差异。他们可能年龄更大、更强壮、更聪明，或者年龄更小、更孱弱、更傻，或者被成人监督得更少，或者被成人监督得更频繁。他们之间可能存在的差异可以不断地罗列下去。做实验的整个要义是把儿童分成只在一个方面存在差异的两组，那就是接触媒体暴力。当我们让儿童自己选择他们是否参加实验组或者控制组时，我们使这两个组在无数方面存在差异，这无数方面的任何差异都可能成为第三方变量，从而引起我们观测到的攻击性行为出现任何差异。 自我选择 是当由一个人决定自己是否参与实验组或者控制组时所引起的问题。正如我们不能让大自然决定我们研究中的哪些儿童接触媒体暴力一样，我们也不能让儿童自己决定。那好，谁应该来做决定呢？

为什么随机分配如此有用，如此重要？

这个问题的答案有点儿不可思议：没有人可以做决定。如果我们想确定我们研究中接触媒体暴力和不接触媒体暴力的儿童之间存在且只存在一种差异，那么必须是随机决定他们进入实验组还是控制组。如果你掷硬币时，一个朋友问你是什么导致硬币落地时正面朝上，你肯定会准确无疑地说没有什么可以做到。这就是掷硬币的结果是随机的含义。因为掷硬币的结果是随机的，我们可以采用掷硬币的方式来解决自我选择引起的问题。如果我们想要确定一个儿童进入实验组还是控制组既不是由大自然决定的，也不是儿童自己决定的，更不是由无数第三方变量中的任何一个我们只要有时间就可以命名的变量决定的，那么我们必须做的事情就是让它由掷硬币的结果来决定——掷硬币的结果本身没有任何原因决定！例如，我们可以走到实验中的每个儿童前面，掷一个硬币，如果硬币是正面朝上落下，那么把这个儿童分到玩暴力视频游戏的组，如果硬币是正面朝下，那么把这个儿童分到不玩暴力视频游戏的组。 随机分配 是一种靠几率分配人们到实验组或控制组的方法。

草莓沾满巧克力酱后是不是味道更好？如果你把又大又多汁的草莓浸入巧克力酱，而不把又小又干的浸入，那么你就不会知道巧克力酱是否会使味道有所不同。但是，如果你随机分配一些草莓浸入，另一些不浸入，而且浸入的那些总体上味道更好，那么你就科学地证明了每个三岁孩子已经知道的事实。

如果我们采用掷硬币的方式分配儿童，那么接下来会发生什么呢？正如图2.12 所示，我们可以预期的第一件事情是，大约一半的儿童被分配到玩暴力视频游戏的组，大约一半儿童分到另一组。第二——这一点更为重要——我们会预期实验组和控制组有大约数量相同的被大人监督的孩子和不被大人监督的孩子，大约数量相同的情绪稳定孩子和不稳定孩子，大约数量相同的大孩子和小孩子、活跃的孩子、胖孩子、高孩子、有趣的孩子，以及蓝色头发叫拉里·麦克斯威尼（Larry McSweeny）的孩子。换句话说，在任何你能够说的上来和所有你不能说的上来的方面上，我们会预期这两组都有大约数量相同的孩子！因为，这两组孩子总体上来说，除了在我们操纵的变量上有差异之外，在身高、体重、情绪稳定性、成人监督和已知宇宙中的任何其他变量上都没有差异，所以我们可以确定我们操纵的变量（接触媒体暴力）是导致我们测量的变量（攻击性）上出现变化的唯一原因。因为接触媒体暴力是我们开始实验时这两组儿童之间唯一的差异，在实验的最后，只要我们观测到的攻击性存在任何差异，接触媒体暴力一定是导致这一差异的原因。

图2.12

随机分配。有成人监督的儿童用浅蓝色显示，没有成人监督的儿童用深蓝色显示。自变量是接触媒体暴力，因变量是攻击性。随机分配确保实验组和控制组的参与者在所有可能的第三方变量上总体来说是同质的。本质上，随机分配确保不存在第三方变量与因变量的相关。

显著性

随机分配是一个强有力的工具，但是就像许多工具一样，它并不是每次用的时候都奏效。如果我们随机分配儿童看或者不看暴力电视节目，我们会预期这两组有大约数量相同的有成人监督和无成人监督的儿童，大约数量相同的情绪稳定和不稳定儿童，诸如此类。这段话中的关键词是大约。当你掷100次硬币，你会期待大约50次正面朝上。但是，在纯属偶然的情况下，100次掷硬币偶尔会出现80次正面朝上，或者90次正面朝上，或者甚至100次正面朝上。当然这并不经常发生，但是它的确会发生。因为随机分配通过使用诸如掷硬币这样的随机化策略得以实现，所以在一长段时间内，每掷一次就可能分配更多的没有成人监督、情绪不稳定的孩子去玩暴力视频游戏，分配更多有成人监督、情绪稳定的孩子不玩。当发生这样的事情时，随机分配就失败了——并且当随机分配失败时，第三方变量问题死灰复燃，就像一个带着曲棍球面罩心怀不轨的家伙一样。当随机分配失败时，我们不能得出自变量和因变量之间有因果关系的结论。

现实世界几率无处不在

最近的盖洛普调查发现53% 的大学毕业生相信超感官知觉（extrasensoryperception），或者简称ESP。很少有心理学家相信这个。心理学家对概率法则的理解让他们充满了怀疑态度。

想一想那些十分令人惊奇的巧合事件。一天夜里，你梦到一只熊猫驾驶着一架飞机飞越印度洋，第二天你告诉一位朋友，他说“哇哦，我也做了相同的梦！”一天早上，你哼着一首收音机迷乐队（Radiohead）的老歌醒来（也许是“妄想狂机器人 ”），然后一个小时之后，你听到商场在放这首歌。你和你的室友正坐在一起看电视，突然你们转向彼此，异口同声地说“想吃披萨吗？”类似这样的巧合可能会使任何人相信超自然的不可思议的心理现象。

但并不是任何人都这么想。诺贝尔奖获得者路易斯·阿尔瓦雷茨（LuisAlvarez）有一天正在读报纸，一个特别的故事令他想起他的一个多年未见的大学老朋友。几分钟后，他翻到报纸的另一页，非常震惊地看到这个朋友的讣告。但是，在得出他具有非常敏锐的超感官知觉这个结论之前，阿尔瓦雷茨决定利用概率论来测定一下这个巧合到底有多么不可思议。

首先，他估算了一般人的朋友数量，然后他估算了一般人有多频繁地想到自己的每个朋友。根据这些估算，他做了一些非常简单的计算，然后测定出某个人在得知一个朋友死亡之前5分钟想到这个朋友的可能性。这个几率大得令人大跌眼镜。阿尔瓦雷茨预测，例如在一个像美国这么大的国家，每天有10个人会遇到这种不可思议的巧合（Alvarez，1965）。另一位诺贝尔奖得主不同意。他认为每天有接近80人会遇到（Charpak和Broch，2004）！

统计学教授欧文·杰克（IrvingJack）说：“10年有5百万分钟。” 这意味着每个人在他的一生中，都有大量的机会遇到某些不可思议的巧合（引用自Neimark，2004）。例如，2.5 亿美国人每天晚上大约做2 小时的梦（这可是5亿小时的做梦时间！），因此两个人有时做了相同的梦，或者我们有时梦到了第二天真实发生的事情，这些一点儿也不奇怪。正如数学教授约翰·阿伦·保罗斯（John Allen Paulos）所说（引用自Neimark，2004）：“在现实中，能够想到的最令人不可思议、难以置信的巧合是所有的巧合都完全没有了。”

如果所有这些都让你感到惊奇，那么你并不是唯一一个。研究表明，人们通常低估偶然出现的巧合的发生几率（Diaconis和Mosteller，1989；Falk和McGregor，1983；Hintzman，Asher和Stern，1978）。如果你想从这个事实中捞点好处，那么就召集24个或者更多的人，然后打赌其中肯定有两个人同一天生日。这个事情发生的几率对你非常有利，而且人越多，这个几率越高。事实上，35人时，几率达到85%。开心地敲别人一笔吧！

当随机分配失败时，我们能得出什么结论？不幸的是，我们什么也不能确定。但是我们能够每次都计算随机分配失败的几率。对你来说如何做这个计算并不重要，但是理解心理学家如何解释它的结果对你来说很重要。心理学家每次做实验都会进行这个计算，除非计算结果告诉他们如果随机分配失败，那么只有不到5% 的机会他们可能看到这些特定的结果，不然他们不会接受这些实验结果。

如果随机分配失败了，只有不到5% 的机会出现某个结果，那么这个结果被称为统计上达到显著。你已经学过描述统计，例如平均数、中数、众数、全距和标准差。还有另外一种统计——叫做推论统计——它告诉科学家可以从观察到的实验组和控制组的差异得出什么样的结论或者推论。例如， p （概率的缩写）是一种推论统计，它告诉科学家在一个特定实验中随机分配失败的可能性。当科学家报告 p <.05，他们是说根据他们计算的推论统计，如果随机分配失败的话，他们得到的结果发生的几率小于5%，假如这一结果的确发生了，那么随机分配就不太可能失败。因此，实验组与控制组之间的差异不可能由第三个变量引起。

得出结论

如果我们应用了上述所讨论的各种方法，我们就可以设计一个极有把握建立两个变量之间因果关系的实验。这个实验就具有 内部效度 ，内部效度是指可以允许实验建立起因果关系的一种实验属性。当一个实验具有内部效度，是指实验内部的所有事情都确切地是按照为了让我们得出因果关系结论的规则而执行。但是这些结论到底是什么？想象一下，如果实验揭示接触和不接触媒体暴力组儿童之间的攻击性存在差异，那么我们可以得出这样的结论：针对我们所研究的被试群体，我们所定义的媒体暴力导致了我们所定义的攻击性。注意那些字体不同的短语。每个短语都对应于我们能够从实验得出的这类结论所受的重要约束，因此我们来逐一仔细讨论。

代表性变量

任何实验的结果都部分地依赖于自变量和因变量是如何定义的。例如，当我们把接触媒体暴力定义为“看两个小时的血淋淋的斧头谋杀”，而不是“看10分钟足球比赛”，或者当我们把攻击性定义为“打断另一个人说话”，而不是“用轮胎撬棍把某个人砸晕”，那么我们更可能发现接触媒体暴力会引起攻击性。我们定义变量的方式会对我们的实验发现产生非常复杂的影响，那么什么是正确的方式呢？

其中一个答案是我们应该按照变量在现实世界中的样子来定义实验中的变量。 外部效度 是指实验的变量按照其在现实生活中正常的、典型的方式来定义的一种实验的属性。一般来说，老师和家长所关心的儿童攻击性行为介于打扰别人和突然袭击之间，儿童接触到的典型媒体暴力介于体育运动和虐待之间。如果实验的目的是确定接触这些类型的媒体暴力是否导致社会上普遍关注的儿童攻击性行为，那么外部效度就非常关键。当实验里的变量按照现实世界中的典型样子来定义，我们就可以说这个变量对现实世界具有代表性。

为什么外部效度并不是必需的？

外部效度听起来像是一个非常好的主意，以至于你可能会惊奇地发现大多数心理学实验的外部效度很低——并且大多数心理学家并不介意这个。之所以这样，原因是心理学家很少试图通过在实验室创造现实世界的缩微版复制品来了解现实世界。相反，他们通常使用实验来检验从理论中获得的假设，以此来认识现实世界，并且外部效度差的实验经常能做得非常好（Mook，1983）。

想知道实验是如何做到的，我们先来看一个物理学的例子。物理学家有一个理论，认为热量是分子剧烈运动的结果。这个理论引出一个假设，即当组成某物体的分子运动较慢，那么这个物体就变得比较凉。现在来想象一下，物理学家用实验来检验这个假设，用激光使橡皮球里的分子运动慢下来，然后测量橡皮球的温度。你会用“对不起，你的实验不能告诉我们有关现实世界的任何事情，因为实际上没有人会使用激光让橡皮球里的分子运动慢下来”这样的说辞来批评这个实验吗？但愿你不会。物理学家的理论（分子运动产生热量）引出一个在实验室里会发生什么的假设（橡皮球里的分子运动变慢会使它变凉），物理学家在实验室操纵和测量的事件为检验这个理论服务。相同地，一个关于接触媒体暴力和攻击性之间因果关系的深思熟虑的理论，应该引出相应的假设，说明儿童在实验室看过暴力电影后会有什么样的行为表现，而且他们对电影的行为反应可以为检验这一理论服务。如果看过电影《钢铁侠3》的儿童在他们离开实验室的路上更加倾向于彼此推搡，那么任何宣称媒体暴力不会影响攻击性的理论都被证明是错误的。

总而言之，理论使我们可以得到关于在某个特定情境下可能、必须或将会发生什么事情的假设，实验通常用来创造这些情境，检验假设，从而为引出假设的理论提供支持或者反对的证据。实验并不总是意味着日常生活的迷你版本，因此外部效度并不是一个必须考虑的问题（请见“科学热点”专栏：暴力电影可以成就安宁的街区？）。

穿孔会增加还是减少一个人的魅力？答案当然完全取决于你给穿孔下的操作性定义是什么。

代表性人群

我们想象中的研究接触媒体暴力和攻击性的实验让我们可以得到以下结论：针对我们所研究的人群，我们所定义的接触媒体暴力导致我们所定义的攻击性。“研究的人群”这个短语代表了我们可以从实验中得出的这些结论所受的另一个重要的约束。

总体和样本之间的区别是什么？

心理学家研究哪些人呢？心理学家极少观察一个完整的总体，总体是指可能被测量的所有的全部整体的集合，例如全人类构成的总体（大约70亿人）、加利福尼亚的总人口（大约3 千8百万人）或者唐氏综合症患者的总人口（大约1百万）。相反，他们观察一个样本，样本是指从总体中抽取的部分个体的集合。样本可以有多大？总体的容量用大写字母 N 来表示，样本的容量用小写字母 n 来表示，因此0<n<N。如果你将它们解读为表情符号，它们意味着……哦，还是算了吧。

科学热点暴力电影可以成就安宁的街区？

2000年，美国儿科学会和其他五个公共健康组织发布联合声明，警告儿童接触媒体暴力存在风险。他们引用心理学实验提供的证据，这个心理学实验表明儿童和青少年接触暴力电影之后，其攻击性行为立即呈现急剧上升的趋势。他们注释道：“超过1 000项研究……一致地指出媒体暴力和攻击性行为之间存在因果关系。”

根据上述实验室结果，我们可能会期待在现实世界中看到，在电影院观看暴力电影的人数与暴力犯罪人数之间存在相关。当经济学家戈登·达尔和史蒂芬劳·黛拉·维格纳（Gordon Dahl和Stefano DellaVigna，2009）分析了犯罪统计数据和票房统计数据后，他们的确发现了相关——只可惜它是负相关！换句话说，当更多的人们在晚上去电影院看暴力电影，暴力犯罪就更少。为什么？研究者认为暴力电影特别吸引那些更可能实施暴力犯罪的人。因为这些人正忙着看几个小时电影，所以暴力犯罪率下降了。也就是说，血腥火爆的电影把罪犯们从街区吸引到了电影院！

实验室实验清楚地表明接触媒体暴力会导致攻击性。但是，正如电影院线数据所提醒的，实验是一个建立变量之间因果关系的工具，它并不意味着一个迷你版的现实世界，现实世界中事情要复杂得多。

在大多数研究中， n 更接近0，而不是 N ，在一些研究中， n =1。例如，有时单个个体非常引人注目，需要详细研究他们，当心理学家研究他们时，采用的是 个案法 ，这是一种通过研究单个个体来收集科学数据的方法。通过研究像原口证（Akira Haraguchi）这样的人（他可以背诵圆周率（π）至小数点后100000位），我们能够更深入地了解记忆；通过研究像亨利·莫莱森（Henry Molaison）这样的人（由于大脑的损伤，他形成新记忆的能力被损毁），我们能够更深入地了解意识；通过研究像14岁的杰伊·格林伯格（JayGreenburg）这样的人（他谱的乐曲已经被美国茱莉亚弦乐四重奏乐团和伦敦交响乐团演奏录制）来更深入地了解智力和创造力。像这样的个案，研究他们本身不仅非常有趣，而且他们也会对研究我们其余人的心理提供重要的启示。

随机取样非常好，但是为什么它并不是必需的？

当然，你将来在这本书中读到的大多数心理学研究包含10人、100人、1 千或者几千人的样本。那么心理学家如何确定哪些人作为他们的样本呢？从总体中选择样本的一个方法是 随机取样 ，这是一种确保每个总体成员都有相同机会被选为样本的选取实验参加者的方法。当我们随机从总体中选取参加者作为样本，这个样本就是这个总体的代表性样本。这允许我们将样本得到的结果推广到总体——也就是说，如果我们测量整个总体，那么我们在样本上观察到的现象也可以在总体上观察到。你可能早已经对随机取样的重要性有着坚定的直觉认识。例如，如果你到一个农场买一袋樱桃，农场主从袋子里挑选几个给你尝尝，你可能不太愿意把这个样本推广到整个袋子里的樱桃总体。但是，如果农场主请你自己随机在袋子里拿几个，你可能就愿意把这些樱桃作为樱桃总体的代表。

随机取样听起来像是一个非常好的主意，以至于你可能会惊奇地发现大多数心理学实验采用的是非随机取样——并且大多数心理学家并不介意这个。确实是，实际上你将来读到的每一个心理学实验中的每一个参加者都是志愿者，并且其中大部分都是大学生，他们比总体上的普通人显著地更年轻、更聪明、更健康、更富有，而且白人更多。心理学家研究的96%人群来自于那些仅仅拥有世界上12%人口的国家，其中70% 来自于美国（Henrich，Heine和Norenzayan，2010）。

那么为什么心理学家不随机取样呢？他们是别无选择。即使有一个计算机存储管理着世界上所有人类居民的名单，我们可以从中随机选取我们的研究参与者，但是我们该如何找到那位在沙漠上游牧的72岁的贝多因族老太太，然后测量她在观看动画片时的大脑电活动呢？我们如何劝说新德里的一个3个星期大的婴儿，让其完成一个关于他政治信仰的冗长问卷呢？大多数心理学实验由位于西半球的学院和大学的教授和研究生实施，尽管他们非常想随机地从这颗行星上的总体人群中取样，但是现实情况是他们对此束手无策，只能研究那些自愿参加他们实验的当地人。

非随机取样为什么不是致命的缺陷？

那么我们从心理学实验中如何了解任何我们想知道的事情？随机取样失败不是致命的缺陷吗？对，不是的，这有三个原因。第一，有时样本和总体的相似性并不重要。如果一头猪仅仅飞过自由女神像一次，那么这立即就证明了传统的猪的运动方式理论是错的。是否所有的猪都会飞，或者是否其他猪会飞都不重要。只要一只会飞，就足够了。甚至当样本不是总体的典型个例，实验的结果仍然可以说明问题。

第二，当将实验结果向外推广非常重要时，心理学家会采用相同的实验程序但是不同的样本来重新实施实验。例如，测量了非随机选取的一组美国儿童在玩过暴力视频游戏后的行为表现，之后我们会用日本儿童重复我们的实验，或者用美国的青少年，或者用成年的聋人。本质上，我们可以把样本的属性，诸如文化背景、年龄、能力当做自变量，我们可以做实验来确定这些属性是否影响我们的因变量。如果我们的研究结果在这些其他样本上得到了重复，那么我们就会更加自信（但是永远都不要完全自信），这个结果描述了人类的一个基本倾向性。如果结果没有被重复，那么我们就知道文化背景、年龄或者能力会影响攻击性。从不同总体中抽取新的样本来重复研究是一个双赢的策略：不管发生什么，我们都会发现一些有趣的事情。

第三，有时样本和总体之间的相似性仅仅是一个合理的起始假定。我们不是问“我是否有一个令人信服的理由让我相信我的样本可以代表总体？”而是问“我是否有一个令人信服的理由让我不相信？”例如，如果一组非随机抽取的7个参与者组成的样本吃了一种实验性药物，并且死了，那么我们没人愿意吃这种实验性药物。确实如此，甚至这7个参与者是老鼠，我们也可能拒绝吃这种药物。尽管这些非随机取样的参与者与我们在很多方面不同（包括有没有尾巴、胡须），我们中的大多数人都愿意将它们的经验推广到我们身上，因为我们知道即便是老鼠，也与我们共享足够多的基本生物学属性，因此相信那些能够伤害它们的东西也会伤害我们，这个准没错。同样的原因，如果心理学实验证明一些美国儿童在玩过暴力视频游戏之后表现出攻击性，那么我们可能会问，是否有充分的理由怀疑厄瓜多尔的大学生或者澳大利亚的中年人的行为会与此不同。如果答案是与此不同，那么实验给我们提供了一种方式来考察这种可能性。

这只老鼠喝了绿色的东西之后死了。你想喝这种绿色的东西吗？为什么不？你又不是一只老鼠，不是吗？

批判性地看待证据

1620年，弗朗西斯·培根爵士（Sir Francis Bacon）出版了一本名为《新工具论》（NovumOrganum）的书，其中他描述了一种发现自然界真理的新方法。他的所谓培根法（BaconianMethod）就是我们现在广为人知的科学方法，这个方法使人类在过去的四个世纪里积累了比之前所有世纪合起来积累到的知识还要多。

正如你在这章里所看到的，科学方法使我们获得实证性的证据。但是实证性的证据只有当我们知道如何思考它时才有用，而事实是我们大多数人并不知道。使用证据时需要批判性思维，这个过程涉及问我们自己尖锐的问题，那就是我们是否以一种没有偏颇的方式来解释证据，以及证据是否告诉我们全部真相，而不仅仅是局部的真相。研究表明，大多数人在做这两件事情方面存在困难，并且用来传授和提高批判性思维技巧的教育培训计划并不特别有效（Willingham，2007）。为什么人们在批判性思维方面存在如此大的困难？

我们来仔细想一下犰狳。有些动物当受到惊吓时会变僵硬，有些动物则躲避、逃跑，或者发出咆哮声。犰狳是跳起来。这个自然的反应倾向千百年来帮助犰狳很好地生存下来，因为千百年来，对犰狳生存最普遍的威胁是响尾蛇。唉，但是这个自然反应倾向在今天却不能帮助犰狳很好地生存下来，因为当它们漫步到得克萨斯州的高速公路上，被高速飞驰而过的汽车惊吓时，它们跳起来（就正好）撞到保险杠上。这个错误，一只犰狳不可能犯两次。

人类也有一些曾经很好地帮助过我们的自然反应倾向，但是后来却不管用了。例如，当我们还在非洲大草原上以一小群人聚居，人人都充当捕猎者—采集者的方式生活时，我们自然的、直觉的思考方式还非常有效。但是如今，我们大部分人都生活在大规模的复杂社会中，这些自然的思维方式会干扰我们在现代世界进行推理的能力。弗朗西斯·培根爵士深谙这个道理。在提出科学方法的同一本书里，他提出，两个古老的人之常情——看到我们所期望的或者想看到的，以及忽略我们没有看到的——是批判性思维的敌人。

我们看到我们期望和想看到的

当给两个人呈现相同的证据，他们经常会得出不同的结论。弗朗西斯·培根爵士深知这是为什么。“人类对外界事物的认识一旦采纳了某种观点……会把任何其他事情也拿来支持和赞同这个观点”，因此我们的“第一个结论将后来的所有事情都染上它的色彩，为它自圆其说”。换句话说，我们预先存在的信念将我们看到的新证据染上它的色彩，导致我们看到我们期望看到的东西。如此一来，证据只是用来确认了我们长期以来相信的事情。

这个倾向已经在心理科学中被广泛地记载。例如，在一项研究中，参与者都被介绍一个名字叫做汉娜的小女孩（Darley和Gross，1983）。一组参与者被告知，汉娜来自于一个富裕的家庭，另一组被告知汉娜来自于一个贫穷的家庭。所有参与者随后都被呈现一些表明汉娜学习能力的证据（尤其是，他们观看一段汉娜参加阅读测验的视频），然后请他们给汉娜打分。尽管给所有参与者观看的视频是完全一样的，相对于那些相信汉娜来自贫穷家庭的参与者，那些相信汉娜来自富裕家庭的参与者给她的成绩的评分更加正性。而且，两组参与者都通过引用视频中的证据来捍卫他们的结论！类似的实验表明，当我们仔细考虑证据时，我们看到什么取决于我们期待看到什么。

并不仅仅只是我们的信念给我们看到的证据染上它的色彩。我们的偏好和偏见，我们的自负和憎恨，我们的愿望、需要、渴望和梦想也会如此。正如培根所注释的：“人类对外界事物的认识并不是清辉（dry light），而是浸泡在愿望和情感之中，愿望和情感导致一厢情愿的科学。因为人们倾向于相信他希望是真的事情。”

研究表明培根的这个看法也是正确的。例如，在一项研究中，呈现给参与者一些关于死刑效力的科学证据（Lord，Ross和Lepper，1979）。一些证据表明死刑可以对犯罪起到震慑作用，一些表明不会。参与者会如何利用这些混合在一起的证据？那些原先支持死刑的参与者变得更加支持死刑，那些原先反对死刑的参与者变得更加反对。换句话说，当呈现给他们完全相同的证据时，参与者看到了他们想要看到的东西，结果更加确信他们起初的观点。后续的研究表明，当请科学家评价一些科学研究的品质，这些科学研究要么证实这些科学家相信的观点，要么推翻他们相信的观点，这时也发现了相同的模式（Koehler，1993）。

我们的信念和愿望如何塑造我们思考证据的方式？

信念和愿望究竟是如何塑造我们对待证据的看法？人们用不同的标准来对待不同的证据。当证据证实了我们相信的或者想要相信的，我们倾向于问我们自己，“我会相信吗？”并且我们的答案通常是“会”；但是当证据没有证实我们相信或者我们想要相信的，我们倾向于问我们自己“我一定相信吗？”并且答案经常是“不一定”（Gilovich，1991）。你会相信拥有大学文凭的人比没有的人更幸福吗？会！有大量的调查表明的确存在这样的关系，一个理性的人研究了这些证据之后可以轻易地捍卫这个结论。现在问你，你一定相信它吗？嗯，不一定。毕竟，这些调查并没有测量地球上每一个人，不是吗？并且如果调查问题的询问方式不一样，可能会得到不同的答案，对吧？一个理性的人研究了这些证据之后可以轻易地得出结论，教育水平与幸福之间的关系还不足以清楚地下定论。

我们的信念和愿望也影响我们优先考虑哪些证据。大多数人都会和那些与自己观点一致的人在一起，这就是说我们的朋友和家人非常可能更加肯定了我们的信念和愿望，而不是挑战它们。研究也表明，当有机会搜寻证据时，人们偏向于搜寻那些证实他们信念、满足他们愿望的证据（Hart等，2009）。更重要的是，当人们发现了证实他们的信念、满足他们的愿望的证据，他们一般就停止搜寻，但是当他们发现那些反对的证据，他们会继续搜寻更多证据（Kunda，1990）。

所有这些研究表明，证据为人们理解和解释留下了很大的空间，我们的信念和愿望在这个空间里发挥着作用。因为很容易看到我们期待看到的，或者看到我们想要看到的，所以批判性思维的第一步就是怀疑你自己的结论。一个减少你自己的确定性的最好方法是找到那些质疑你的人，认真倾听他们都说些什么。科学家通过把他们的论文发给那些最有可能不同意他们的同事，或者给那些满是批评者的听众展示他们的研究发现，以此把他们自己毫无保留地给人批评，他们这样做主要是为了使他们能够从一个更加不偏不倚的视角，来看待自己的结论。如果你想开心，带上你的朋友一起去吃午餐；如果你想得到一个正确的结论，那么带上你的敌人。

我们仔细考虑我们看到的，忽略我们没有看到的

在弗朗西斯·培根爵士卓越非凡的著作中的另一部分里，他详述了一个关于某人探访罗马神庙的老故事。神庙的僧侣给这个人看了几个水手的肖像，这些水手恪守自己的宗教誓约，然后奇迹般地在一次海难中幸存下来，接着僧侣认为这是神的力量存在的明显证据。这个探访者停顿了一会儿，然后准确地问出了关键的问题：“但是，那些恪守自己誓言却死掉的人，他们的肖像在哪里？”根据培根的观点，我们中的大多数人从来没想过问此类问题。我们对我们看到的证据深思熟虑，却忘了那些我们没有看到的证据。培根宣称“对看不见的事情，我们根本不注意或者只给予一点儿注意”，并且他辩论道这个自然的倾向是“人类认识的最大障碍和偏差”。

培根宣称的人们很少考虑他们没有看到的事情，在这一点上他是对的。例如，在一项研究中，参与者玩一种游戏，游戏里呈现给他们一套三字铭，也就是三个字母的组合，例如SXY、GTR、BCG和EVX（Newman，Wolff和Hearst，1980）。在每个试次里，实验者指向一套三字铭中的一个，然后告诉参与者这个三字铭是特殊的一个。参与者的任务是弄清楚这个特殊的三字铭的特殊之处是什么。参与者需要经过多少个试次才能弄清楚？这取决于这个三字铭的特殊特征。对于其中一半参与者，如果这个特殊的三字铭总是包含字母T，这些参与者需要看大约34 套三字铭才能弄清楚三字铭的特殊之处。但是，对于另一半参与者，特殊的三字铭总是不出现字母T。这些参与者需要多少个试次才能弄清清楚？他们永远也弄不清楚。永远。这个研究告诉我们的是，我们很自然地考虑那些我们看到的证据，但是从不，即使有的话，也是极少考虑我们看不见的证据。

仔细考虑那些看不见的证据为什么非常重要？

忽略缺失证据的倾向会导致我们得出各种各样错误的结论。我们来看一项研究，参与者被随机分配去扮演一个游戏中的两个角色中的一个（Ross，Amabile和Steinmets，1977）。游戏要求“提问者”提出一系列困难的问题，要求“竞答者”回答这些问题。只要你稍微试一试，你就会发现提出那些你会回答，但是其他人不会回答的问题，非常容易。例如，想一下你最近一次去过的城市。然后把你入住的酒店名字告诉别人，接着问他们这个酒店在哪条街上。很少有人知道。因此，那些被随机分为提问者的参与者问了大量听起来很聪明的问题，那些被随机分为竞答者的参与者说了很多错误的答案。下面是最有趣的部分。提问者和竞答者在玩这个游戏时，另一个参与者——观察者——在看他们。游戏结束后，要求观察者猜测一下，游戏的玩家在他们的日常生活中是什么样子的。结果非常清楚：观察者一致地得出结论，提问者比竞答者更富有知识！观察者看到了提问者问尖锐的问题，看到了竞答者说“哦，天呀，我不知道”，观察者只考虑到这些证据。他们没有考虑到的那些他们没有看到的证据。尤其是，他们没有考虑到，如果让那些扮演提问者的参与者反过来扮演竞答者，那些扮演竞答者的参与者反过来扮演提问者，将会发生什么？如果这样的话，可以肯定原来的竞答者将提出聪明问题，原来的提问者将会绞尽脑汁去回答。归根结底？如果批判性思维的第一步是质疑你所看到，那么第二步就是仔细考虑你所没有看到的。

不管竞答者的表现有多好，智力抢答游戏（Jeopardy）的主持人阿力克斯·特里伯克（Alex Trebek）似乎总是舞台上最聪明的家伙。但是，如果给竞答者个机会问他几个问题，你是否还会保留你对他的这个印象？

怀疑的态度

温斯顿·丘吉尔（Winston Churchill）曾经说过，尽管对任何事情来说，民主都是非常好的形式，但是对政府来说，民主是最差的运作形式。与此相同，科学并不是认识世界的绝对可靠的方式；它只是比其他方法更不容易犯错。科学是人类的事业，而人类容易犯错误。他们看到他们期望看到的，他们看到他们想要看到的，他们极少考虑他们根本没有看到的事情。

科学与其他大多数人类所从事的事业所不同的地方在于，科学积极地发现和补救它自己的偏差和错误。科学家一直都在致力于使他们的观察结果更加准确，使他们的推理更加严谨，他们邀请尽可能多的人来检验他们的证据，挑战他们的结论。就这样，科学是真真正正的民主——具有世界上独一无二的体制，无名小卒可以战胜最负盛名的大牛。当瑞士专利局默默无名的职员阿尔伯特·爱因斯坦（Albert Einstein）挑战他那个时代最伟大的物理学家时，他没有如雷贯耳的名气、引入注目的学位、呼风唤雨的朋友，或者鼓鼓的钱包。他只有证据。而且他获胜的原因只有一个：他的证据是正确的。

因此，把这本书剩下的章节当做来自这个领域的一个报告——这是对心理学家所做工作的一个描述，他们做的所有这些都是在不断经历错误和跌倒去追寻知识。这些章节告诉我们那些信仰弗朗西斯·培根爵士方法的男男女女，使用这一方法摸索到的有关我们人类的一点点真相，我们到底是谁，我们的身体和心理如何运转，我们一起都在太阳系的第三颗行星上做什么。你不但要带着兴趣阅读它，而且要带着批判的眼光阅读它。一些我们将要告诉你的事情有可能不是真的；我们只是现在还不知道到底哪些不是真的。我们邀请你批判性地思考你在这里阅读到的内容，在其他任何地方也是如此。现在，开始怀疑一切。

小结

▲ 为了确定两个变量之间是否为因果关系，我们必须首先确定他们是否相关。相关可以通过测量每个变量许多次，然后比较每个系列的测量结果的变异模式来完成。如果这些结果共变，那么变量是相互关联的。相关使我们可以根据一个变量的已知的值来预测另一个变量。相关的方向和强度通过相关系数（ r ）来考察。

▲ 当我们观察两个变量之间的相关，我们不能得出它们是因果关系的结论，因为有无数多的第三方变量可能影响这两个变量。实验可以通过操纵自变量、随机分配参与者到实验操纵的实验组和控制组、测量因变量来解决第三方变量问题。因此，这些测量结果是组间的。如果推论统计表明随机分配失败时，这个结论发生的几率只有5%，那么不同组之间测量结果的差异可以认为是由实验操纵引起的。

▲ 针对实验参与者所在的人群，具有内部效度的实验可以建立操作性定义的变量之间的因果关系。当实验模拟现实世界，那么这就是外部效度。但是，大多数心理学实验并不试图模仿现实世界，而是检验从理论推理出的假设。

▲人们难以批判性地思考证据，因为人们有一种自然倾向，看到他们所期望看到的，看到他们所想要看到的，并且只深思熟虑他们看到的，而不考虑他们看不到的。