社会心理学：基础与进展最新章节_王彦著

第4节
社会心理学的研究方法

·理论和假设

由于对日常生活的简单观察可能会导致错误的结论，社会心理学家必须借助一套严密的研究方法来收集数据，从而有效地避免偏差和错误。许多研究的起因是，研究者对现存的理论和解释感到不满意，认为可能有更好的方法来解释人们的行为。为此，他们提出其他的解释，并进行研究来验证。另外，社会心理学研究还经常来自对日常生活中现象的观察，研究者提出假说来解释事情发生的原因，并进行研究来考察假设是否正确。例如，20世纪60年代的美国曾有一名女性被残忍杀害，其间有38名居民袖手旁观。两位社会心理学家认为，有可能目击紧急事件的人数越多，每个人插手干预的可能性就越低（Darley & Latané，1968）。他们将其称为“旁观者效应”（bystander effect），并实施研究对假设进行了验证。

在科学研究中，理论起着重要作用。如前所述，社会心理学家不仅要描述社会行为，还要解释其原因。这就需要构建理论，理论是指科学家用于解释和预测某些事件或过程的一套整合原则。由理论衍生出可检验的假设，假设是指描述可能存在于事件之间的关系的可检验陈述。社会心理学家可以利用这些假设对理论加以证实，或者对其进行修改，以产生新的理论。因而，理论建构和修改的基本程序如下：首先根据现有证据提出理论；由理论衍生出具体的假设，或对事件关系的预测；进行研究来检验假设；如果结果与假设所预测的相一致，那么对理论准确度的信心增加；如果结果是假设没有得到证实，那么对理论的信心下降，这时需要修改理论或构建新的理论。这一过程反复进行，本书中关于社会行为和心理过程的理论均由这样的过程形成。

·实验室研究与现场研究

在进行研究时，一个需要考虑的问题是研究场所的选择。研究可以在实验室进行，也可以在现场进行。所谓的现场研究是指考察日常生活场景中发生的行为，例如工厂、学生宿舍、地铁、候车室等日常生活场景。在实验室研究中，被试进入一个由研究者选择和控制的环境，例如大学或研究所里的心理学实验室。实验室可以只是一个要求被试待在里面完成问卷的房间，也可以包括一些特殊的设备，例如摄像机、单向玻璃、生理记录仪等。在实验室中进行研究的优点是可以对实验环境进行控制，将外来因素的影响降到最低，并排除实验过程中的意外事件。因而，在实验室中研究者可以很好地控制各项变量，准确地探讨某一变量对另一变量的影响，内部效度（所谓内部效度指的是确保影响因变量的只有自变量）高。现场研究最主要的优点是，有更大的真实性，因而结果可以推广到现实生活情境中，外部效度（外部效度指的是一项研究的结果能被推广到其他情境或其他人身上的程度）高。现场研究还可以考察一些实验室中无法研究的极端变量或情境，例如自然灾害、犯罪和战争。并且，由于现场研究在日常场景中进行，被试的表现更加自然。但现场研究的主要缺陷是，难以对变量进行操纵和测量，容易受到外在因素的干扰。

·观察

直接观察和记录所发生的行为是一种基本的研究方法。在观察研究中，研究者只需记录不同情况下发生了什么，不能去试图改变被观察者的行为，甚至要尽最大努力避免自己被发现。例如，一项研究考察的是温度对按汽车喇叭的作用（Baron，1976）。研究者安排一个助手开着汽车在红灯亮了之后在斑马线处停下，并在绿灯亮了之后仍然不动。另一名助手躲在灌木丛后面，记录后面的汽车在鸣喇叭之前等待的准确时间。结果表明，司机在热天比在冷天时更快地按喇叭。这种观察方法中观察者与被观察者之间完全没有互动，也叫自然观察法。另一种观察法叫做参与观察（participant observation），观察者与被观察者之间产生互动，但观察者尽量不对情境进行任何改变。例如，为了研究助人行为，研究者在公共场所假装出现紧急情况，观察有多少人愿意提供帮助。另外一个例子来自50多年前，美国有一群信徒相信地球某天将会毁灭，有一艘飞船将降落并及时把他们救走。一些研究者希望密切观察这群人，并记录下他们在幻想破灭时的反应。为了深入地观察和记录，研究者需要加入这个团体，并假装自己也相信世界末日即将来临（Festinger，Riecken，& Schachter，1956）。这一研究发现，当预言的地球毁灭没有来到时，信徒们并没有放弃他们的信仰，反而是更加坚定地相信经过修改的预言。费斯廷格等就此提出了认知失调理论（见第5章）。

使用观察法必须避免研究者预先持有的观念的影响，因而这类研究必须保证评分者信度（inter-judge reliability）。评分者信度指的是，两名或两名以上的评判者对同一组数据进行独立观察和记录时，不同评判者之间的一致性程度。如果不同的评判者得出的观察结果相同，研究者就能肯定这些观察结果并不是个人主观扭曲的印象。

研究者不仅可以观察当前的现实生活中的行为，还可以考察某种文化中所累积的文献记录或档案，例如日记、小说、杂志、报纸、广告、机构报告等，这叫做档案分析（archival analysis）。档案分析的好处是，有大量资料可供选用，并且，它不局限于某一个历史时期，可以检验人们的社会行为和信念随时间的演变。例如，有研究者感兴趣的是，暴力行为是否与经济困难导致的挫折感有关。为此，他们利用美国南方腹地1882年至1930年的历史数据进行分析，结果发现，在棉花价格下降和通货膨胀压力增加的年份，针对黑人的私刑发生的频率更高（Tolnay & Beck，1995）。还有研究者曾对多种媒体和出版物上的新闻和广告照片等进行档案分析（Archer，Iritani，Kimes et al.，1983）。他们发现，在不同文化和不同类型的媒体中，男性大多以特写的方式呈现，强调头部和脸部；女性则以远距离的方式呈现，强调身材。二十多年以后，德国学者考察了描绘男性和女性的这一不同方式在互联网上是否仍然存在（Szillis & Stahlberg，2007）。结果表明，与女性教授和女性政治家相比，男性教授和男性政治家被更多地突出脸部。

观察法的局限在于，某些特定种类的行为很难观察，原因是它们很少发生或通常在私下里发生，例如紧急事件、暴力犯罪等。而档案分析使用的数据往往是杂乱无章的，未必存在研究者需要的资料。观察法还局限于特定的人群、情境或某种特定的活动，如果需要归纳概括并加以推广，观察法就不再适用。另外，观察法只是提供对现象的描述，更进一步地预测和因果关系分析需要其他的研究方法。

·调查

研究者可以访问大量被试，要求他们就一些关于他们的态度和行为的问题做出回答。调查常以问卷方式进行，被试在研究者编制好的问卷上，就一些关于自己的态度、情绪、信念等方面的问题做出回答。问卷调查的好处在于可以迅速收集到大量信息，并且可以测量一些难以直接观察的变量，例如犯罪、性行为等。但是，要保证问卷调查的可靠性，必须满足一定的要求。第一，被试必须具有代表性，也就是说研究选取的样本必须能够代表所要研究的总体。只有当调查的结果能够反映一般大众的反应，而不只是实际接受测验的人们的反应时，调查结果才是有效的。例如，如果要研究一个城市的大学生对某个问题的态度，研究者不可能研究这个城市的所有大学生，只能选择一定数量的学生作为代表，但选择的这些学生必须尽可能地代表整个总体。研究获得代表性样本的常用方法是抽取随机样本（random sample），也就是保证总体中每名个体有同等的概率被选中。如果样本是随机样本，就可以假定他们的反应能够代表总体。而如果试图从非代表性的样本中得出一般性结论，就有可能犯下错误。例如，1936年有一本名为《文学文摘》的杂志进行了一项调查，调查者向一千万美国读者邮寄明信片，询问人们在即将进行的大选中会投票给谁。根据两百万名读者的回复，共和党候选人兰登（Landon）将以绝对优势胜过民主党候选人罗斯福（Roosevelt）。但是，最终的选举结果却是罗斯福大获全胜。这项调查的错误在于，只从电话簿和汽车主注册名单获取样本，而实际投票的大多数人却并不富裕，买不起电话和汽车。因此，《文学文摘》使用了一个不具代表性的样本，从而得出了错误的结论。

问卷调查要注意的第二点是，问卷中问题的排列顺序、答案选项的编制和排列顺序以及问题和选项的措辞都可能会影响结果。例如，当问及“日本政府是否应该对美国工业品在日本的销售数量设定限额”时，大多数美国人给予否定回答（Schuman & Ludwig，1983）。但是，当被试先回答另一个问题，即“美国政府是否应该对日本工业品在美国的销售数量设定限额”时，大多数人认为美国有权力设定限额，那么再被问到关于日本的问题时，为了保持一致，2/3的美国人会做出肯定回答。再来看一下答案选项的影响。在一项全国性调查中，两位研究者要求美国被试回答：“当前我们国家面临的最重大问题是什么？”如果以开放性问题的形式询问，只有1%的人提到公共教育质量；但是，如果询问：“当前我们国家面临的最重大问题是什么？能源短缺、公共教育质量、堕胎合法化，或是其他？”则有32%的被试会认为公共教育是最重大的问题（Schuman & Scott，1987）。最后，问题的精确措辞也会影响被调查者的回答。例如，从逻辑上说，“禁止”和“不允许”表达的是同样的意思。然而，询问“你认为美国是否应该允许公开发表反民主的演说”和“你认为美国是否应该禁止公开发表反民主的演说”得到的回答有很大差异。62%的人对前一个问题回答是不应该允许，但对后一个问题，46%的人回答应该禁止（Rugg，1941）。

另外，调查研究还需注意被试反应的准确性。直接的问题，例如提问人们对某一问题的看法，或者他们通常会做出什么样的反应，相对来说比较容易回答。然而，当要求人们预测自己对某些假设情境的反应时，往往会得到不正确的回答。研究发现，对积极事件而言，人们往往高估赢得大奖、获得职位等造成的快乐体验的强度和持续时间；而对消极事件，人们尤其会高估其引发的痛苦体验的强度和持续时间（Gilbert et al.，1998）。并且，人们对自己行为的原因，经常做出错误的报告。他们对自己行为起因的回答，多数与流行的常识理论和信念相关，与真正影响其行为的因素关系不大（Nisbett & Wilson，1977）。

·相关研究

相关研究探索的是两个或多个因素之间的关系。如果两个变量之间存在相关，那么就可以从一个变量预测另一个变量。例如，如果已婚夫妇的某些行为模式（例如互相间的恶意批评）与将来离婚的可能性存在相关，那么就可以根据夫妻交往方式预测其是否会离婚。相关研究可以计算相关系数，其范围从-1到0再到+1。正值表示当一个变量高时，另一个变量也高，即正相关；负值表示当一个变量高时，另一个变量却低，即负相关；0则表示两个变量之间没有相关，即一个变量高时，另一个变量有可能高，也有可能低，无法互相预测。例如，身高和体重之间呈正相关，年龄与男性头发数量之间呈负相关，而身高与穿衣服的多少没有相关。相关系数绝对值的高低表示相关程度的高低，相关度越高，从一个变量信息预测另一个变量的准确性就越高。社会心理学家在采用相关研究时，需要对每个变量进行测量，然后用统计方法计算变量之间是否存在相关，以及相关的方向和程度如何。但是，仅仅发现变量之间的相关关系，并不能保证一个变量的变化导致了另一个变量的变化。假设两个变量A和B之间存在相关，它们之间的因果关系有多种可能：A是B的原因；B是A的原因；也可能第三个变量C导致了A和B。这三种情况甚至有可能并存。

例如，一位心理学家想要检验“见面时紧紧地握手可以给对方留下更好的第一印象”这一假设（Chaplin et al.，2000）。那么，研究者可以安排一些陌生人进行握手，测量他们相互握手的特点和初次见面的彼此印象。如果两者之间存在正相关，就可能对假设提供支持。假定结果确实在握手力度与第一印象之间发现了+0.5的正相关，那么这说明了什么？一种可能是，紧紧地握手可以引起良好的第一印象。但是，还存在第二种可能，即第一眼印象较好的人才会互相紧紧地握手。还有一种可能是，握手力度大的人本来就更友好、自信和外向，这些因素引起了正面的第一印象。另一个类似的例子是，曾有一种流行观点认为低自尊导致了一系列的问题行为，例如学业成就低、药物滥用、青少年怀孕等。这种方向性因果关系假设推动了许多提升自尊的教育项目。但研究证据表明，自尊与学业成就等领域的相关更可能呈相反的方向，即学业成就等领域的高表现导致了高自尊（Kruger，Vohs，& Baumeister，2008）。

第三变量问题，指的是两个变量之间的相关，实际上并不是由于两者之间有直接的因果关系，而是因为这两个变量分别都与第三变量相关，而这个第三变量在研究中可能并未测量。例如，美国私立学校的学生的成绩往往高于公立学校，这是否意味着私立学校的教育质量高于公立学校？为了回答这一问题，单单评估学校类型与学业成就之间的相关是不够的。学业成就与父母教育程度、父母职业、社会经济地位等家庭背景因素都有关系。因此，家庭背景因素很可能是这个问题中的第三变量，影响到学校类型与学业成就之间的关系。也就是说，家庭环境优越的学生学习成绩更好，他们也更有可能进入私立学校。研究者采用更复杂的统计技术，将其他变量的影响排除，结果显示当学生家庭背景和一般智力因素被排除后，学校类型与学业成就之间几乎不存在关系（Berliner & Biddle，1995）。再如，很多研究发现儿童观看暴力节目的时间长短与其攻击行为的数量之间存在正相关（例如：Huesmann，1982）。这可能意味着观看电视暴力节目导致了儿童的攻击行为；但也有可能相反，有攻击性的儿童对电视暴力节目特别感兴趣；还有可能存在第三个变量，例如贫穷或挫折，导致了儿童看更多的电视暴力节目和更有攻击性。要明确因果关系的方向，必须进行操纵自变量的实验研究。

相关研究的优点是，它往往发生在真实的情境中，研究者可以考察某些难以操纵的变量，例如种族、性别、社会地位等，也可以在不适合进行干预的情况下实施研究，例如考察父母虐待、灾难经历等因素。并且相关研究效率较高，可以用问卷调查的方式进行，通常可以在短时间内收集很多信息。但是，相关研究最大的劣势就是研究结果的模糊性，即无法确定因果关系。两个变量之间的共同变化可以使我们运用一个变量对另一个变量进行预测，但是相关却不能清楚说明因果关系。

·实验研究

由于相关研究无法分辨因果关系，社会心理学家必须在实验室或现场模拟日常生活过程，在可行又不违背伦理道德的前提下，进行实验研究。研究者系统地改变一个或多个变量，测量这些改变对另一个或多个变量的影响。由研究者操纵的变量称作自变量（independent variable），而被测量的变量叫做因变量（dependent variable），因为它可能依赖于自变量的操纵。在一个实验中，被试被分配到自变量的不同水平，然后系统地测量被试行为的差异，以确定因变量的变化是否由自变量引起。如果结果是肯定的，那么研究者可以初步认为，自变量和因变量之间存在因果联系。

例如，前面提到观看电视暴力节目与攻击行为之间关系的问题，如果想要确定因果关系，需要进行实验研究。在一个研究中，男孩被随机分配到两种条件中的一种。第一组男孩观看一部暴力电影，第二组男孩观看一部非暴力电影。随后，要求所有男孩充当“教师”角色，可以自由地根据自己的意愿给犯错的“学生”以电击。被试施加的电击强度被作为攻击行为的指标。这个实验发现，看了暴力电影的男孩比看了非暴力电影的男孩实施的电击强度更大（Hartmann，1969）。在这个研究中，自变量是男孩所看的电影类型，因变量是男孩对他人施加的电击强度。实验提供了清楚的证据，证明因变量的变化是由自变量引起的。注意这里的实验研究通过直接干预——让男孩观看不同类型的电影——来获得数据；而在相关研究中，研究者并未试图去操纵变量，而是对自然的变化进行记录。

实验法最重要的优点是，如果操纵和实施得当，它能够确定变量之间的因果关系。因此，它成为社会心理学家常用的方法。有数据显示，大约3/4的社会心理学研究采用了实验的方法（Higbee，Millard，& Folkman，1982）。但是，实验研究必须满足一些要求，才能保证收集到的数据真实可靠。

第一个要求：各种实验条件下的被试必须做到随机分配（random assignment）。这是因为，如果被试在教育、文化、智力水平等因素上存在差异，那么无法保证其行为上的差异确实来自自变量操纵。随机分配意味着，每名被试都有同等的概率被分配到某实验条件下。这样一来，前面实验中的两组被试应该在任何可能的变量上，比如家庭地位、智力水平、教育、初始暴力状态等方面，具有相同的平均水平。那么，两组间出现的暴力行为的差异就可以归为两组之间唯一存在区别的因素，即是否观看了带有暴力的电影。

第二个要求：要避免实验者偏差（experimenter bias），即由实验者引起的对被试行为的有意或无意的影响。如果实验者有意或无意地暗示被试按照某一方式反应，被试很容易按照暗示进行反应。例如，在媒体暴力研究中，一个急切的实验者可能期望观看暴力电影的男孩攻击性强，于是他/她可能会给这组被试一些微妙的暗示，鼓励他们给出更强的电击。一个假定在某些情境下女性比男性更容易提供帮助的研究者，在进行研究时，实验者可能会微笑、点头赞同和与女性被试进行更多的目光交流，无意间鼓励女性提供帮助。要解决实验者偏差，一种方法是让实际进行实验操作的人（例如研究者的助手）不知道研究的假设，或者不知道被试处于哪种实验条件下；第二种方法是使实验过程标准化，保证除了预先操纵的条件外，其他因素在各个实验条件之间没有任何不同，例如所有指示语都用书面、录音或计算机呈现。

第三个要求：要避免被试偏差，即来自被试一方的偏差。实验中的线索可能会告诉被试哪些行为是实验者所预期的，这叫做要求特征（demand characteristics）。被试可能察觉的线索包括实验者的措辞、语调、手势、表情，等等。被试可能希望努力弄清实验的目的，并努力做出他们猜测实验者希望他们做出的行为，也就是所谓的“好被试”；他们也有可能出于逆反心理，做出与实验者的期望相反的行为（Weber & Cook，1972）。而且有些时候，被试可能仅仅因为知道被研究就有意或无意地改变了自己的行为。因此，实验者需要将实验过程标准化，向被试保证他们的个人信息不会被公开，不让被试知道研究目的和研究假设，以及在可能的情况下，让被试不知道当时自己正在被研究。例如，假设研究者想要考察被试与陌生人交谈的行为，他可能会告诉被试，这是一个调查消费偏好的研究。在被试等候进入实验室时，研究者会观察他们在等候室里是否会互相交谈，或者研究者安排一个实验助手进入等候室，考察被试是否会主动与其交谈。这样一来，被试以为自己将要参加一个实验，却不会想到研究者真正感兴趣的是他们在等候室里的行为。这可以有效地减少被试偏差。

社会心理学家经常使用实验研究的方法，但是它通常在实验室进行，可以研究的被试人数和类型有限，并且需要严格控制很多因素，往往与真实的社会情境有所区别。因此，实验研究的外部效度经常受到质疑，也就是说大家会怀疑实验结果在多大程度上能够推广到真实的生活情境和其他人群。例如，对于群体大小会影响人们在紧急事件中的助人行为这一假说，研究者需要安排一个实验来检验它。但出于实施和道德方面的考虑，不可能安排一起真实的谋杀案，只能创设一个尽量逼真且吓人的情境。为此，两位研究者安排被试进行群体讨论，讨论者各自待在独立房间里，通过麦克风和耳机进行讨论。讨论进行几分钟后，被试在耳机里听到一位讨论者正经历癫痫发作，研究者关注的是离开房间去寻找病人的被试比例。结果发现，当被试与5人一起讨论时，只有31%的被试给予帮助；当被试认为只有其他两个人知道有人发病时，62%的被试会提供帮助；当被试认为自己是唯一一个听到有人癫痫发作的人时，85%的被试都会提供帮助（Darley & Latané，1968）。这一结果证实，旁观者人数确实影响助人行为的比例。由于实验法只能提供对真实情境的模拟，并且必须控制所有额外因素，对被试进行随机分配，以保证其内部效度，有人会批评这种实验研究与真实生活的差距很大。被试在实验室中通过耳机听到有人癫痫发作与人们在生活中目睹杀人事件究竟相差多大？这就是研究者需要关注的外部效度问题。

前文已经提到，外部效度是指一项研究的结果能够推广到其他情境或其他人身上的程度。也就是说，外部效度包括情境推广和人群推广两部分。为了使实验情境中的结果能够推广到现实生活中，研究者需要尽量使研究真实。从现实真实性（mundane realism）——实验与现实生活情境的相似程度——的角度看，实验情境与日常生活事件的相似度不高，真实性较低（Aronson & Carlsmith，1968）。但是，更重要的是心理真实性（psychological realism），即实验所引发的心理过程与日常生活中所发生的心理过程的相似程度（Aronson，Wilson，& Brewer，1998）。尽管实验的现实真实性可能不高，但如果它引发的心理过程类似日常生活事件所引发的，这个实验的心理真实性很高，那么就可以将其结果推广到日常生活中。为了保证研究结果可以推广到总体，最好的方法是随机抽取样本。但是，对于多数实验而言，随机抽取样本难以实施并且花费太大。很多研究者假定，他们研究的是基本的心理过程，这些心理过程是人们普遍拥有的，因此不必一定要考察来自不同年龄、职业、地区和文化下的被试。社会心理学家经常使用大学生被试，在实验室情境中对其进行研究，并据此确立关于真实社会情境的人际交往和群体行为理论（Sears，1986；Myers，2012）。但是，大学生被试并非是人类总体的随机样本。数据显示，大多数研究被试来自西方文化，受教育水平高，所在的国家工业化程度高、富裕和民主，但这一文化背景的人群仅占全球人口的12%（Henrich，Heine，& Norenzayan，2010）。

对于研究者所假定的心理过程的普遍性，重复研究（replication）可以对其进行检验，即针对不同的被试总体和不同的情境对某项研究尝试进行重复。当一项研究的结果在不同人群、不同城市、不同情境等情况下得以重复时，我们就可以确定这一结果的可靠性和可推广性（Nosek et al.，2015）。一项对100个实验和相关研究的直接重复研究显示，当初被证实显著的效应中只有不到一半得以重复（Open Science Collaboration，2015）。2007年的一项研究发现，当人们被带有宗教含义的词语启动时，他们在独裁者游戏中分给匿名陌生人的金钱更多（Shariff & Norenzayan，2007）。然而，近期的一个重复研究认为，带有宗教含义的词语影响独裁者游戏中金钱分配这一效应是不可靠的，或者限于某些特定方法或人群（Gomes & McCullough，2015）。类似地，近期的一些研究未能重复出成就词语启动对成绩表现的促进作用（Harris et al.，2013），身体温度对人际温暖感受的影响（Lynott et al.，2014），等等。当然，也有一些效应得以广泛重复，证实其可靠性。例如，实验室研究显示，如果有武器在场，被试更有可能做出攻击性行为，称作武器效应（Berkowitz & LePage，1967）。这一效应在现场研究、不同文化、不同年龄、不同攻击性测量等情况下都得以重复（Anderson，Benjamin，& Bartholow，1998）。随着互联网的广泛普及，不少研究者在互联网上招募被试，对其在实验室研究和大学生样本中得到的效应进行重复研究。研究显示，互联网上的被试在性别、社会经济地位、地区和年龄等方面有更广泛的分布，并且一些研究发现用互联网研究与传统实验室研究得出的规律非常相似（Gosling et al.，2004）。不过，在互联网上实施实验时，被试的流失率（attrition rate）较高，并且流失率在不同实验条件之间可能存在系统性差异，这会破坏研究的内部效度（Zhou & Fishbach，2016）。

另外，元分析（meta-analysis）方法可以帮助研究者统计多项研究的结果，从而确定自变量的效果是否可靠。在使用元分析方法时，研究者首先需要找到尽量多的关于同一主题的研究，然后使用统计方法从这些研究中提取和总结信息。元分析的目的是对研究所得的效应大小（effect size）进行一个总体估计，也就是估计自变量对因变量影响的效果大小，或者说实验处理所造成的效果大小。因此，如果元分析发现平均效应较大，那么可以肯定地下结论说自变量对因变量的影响较大。另外，元分析方法也可以用来检验不同研究之间的一致性或差异性程度。如果不同研究的结果一致性很高，那么这些结果正确的可能性就很大。而如果不同研究的结果并不一致，元分析还可以帮助研究者发现不一致的原因，例如可能是由于控制变量问题或者样本差异问题。在本书中提到的多数结论都在不同的情境和不同人群中得到了证实，很多主题都有元分析的证据，因此可以相信它们的可靠性。例如，第7章将会讨论旁观者人数对助人行为的削弱作用，这一结果在多种文化、多种类型的人群、多种情境、多种类型的紧急事件等各种情况下都得到了证实（Aronson，Wilson，& Akert，2004）。元分析方法对于探讨社会行为的文化普遍性和差异以及性别普遍性和差异也很有帮助。例如，如果元分析发现某个现象的性别差异的平均效应很小，那么这个性别差异可以忽略不计；如果元分析发现某种现象在不同文化下的研究结果有很高的一致性，那么这种现象很可能是跨文化普遍的。

从上述讨论可见，内部效度和外部效度几乎总是面临权衡取舍，这属于社会心理学家经常面对的基本困境（Aronson & Carlsmith，1968）。很难在一个研究中保证二者都很高。通常，多数心理学家选择优先保证内部效度，在实验室中进行实验研究，控制所有潜在变量，对被试进行随机分配，从而保证自变量与因变量之间的因果关系。也有学者偏好进行现场实验来保证外部效度。通过重复研究，可以达到很高的内部和外部效度。

另外，有些因素难以用实验进行操纵，或者虽然可以操纵，但违背伦理道德。例如，假设研究者认为父母对孩子的虐待与孩子的问题行为之间存在联系。严格的实验方法需要将被试分为两组，一组接受父母的虐待，另一组则否，然后考察两组孩子间问题行为的差异。但这显然是不符合社会伦理道德规范的，研究者只能对自然的行为进行观察和记录，然后考察两个变量之间的相关。这也是自然观察和相关研究有其存在价值的原因。因而，任何研究方法都有利有弊，社会心理学家需要根据具体要研究的问题，选择最适合的方法来实施研究。

·跨文化研究

跨文化心理学（cross-cultural psychology）“研究不同的文化和种族群体中个体的心理社会功能的相似性和差异，它力图发现在个体水平上的心理变量与在群体水平上的文化、社会、经济、生态和生物变量之间的关系，并探讨个体对变化中的群体变量的实际体验（Kagitcibasi & Berry，1989）”。从上述定义可以看出，跨文化心理学既关注人类心理规律的普遍性，又重视文化和种族差异；它探讨宏观水平变量与个体行为之间的关系，有助于找出具有普遍性和文化特异性的心理特点及其机制；最后，它还关心时代变迁造成的宏观环境变化对个体的影响。在跨文化框架内探索社会心理学的研究者秉承了上述思路，力图深入理解文化与社会行为之间的相互影响。在本书中将会讨论很多具有跨文化普遍性或者文化特异性的现象。例如，世界各地的人们对几种基本情绪表情（例如高兴、生气、害怕、悲伤等）的表达和理解非常一致，原始土著社会的居民也可以理解他们从未见过的西方人的表情（Ekman & Friesen，1971）。一种主要的文化差异是个人主义文化与集体主义文化的区别，前者强调独立和个人主义，后者强调相互依赖和集体主义，文化取向上的这种差异影响社会行为的许多方面（Markus & Kitayama，1991）。

跨文化社会心理学研究在方法学上有一定的难度和复杂性。它并不是简单地前往另一种文化，将研究材料翻译为当地的语言，然后进行重复研究就可以完成的。研究者不能把自己文化中的看法和概念带入到不熟悉的文化中。研究者不能让被试认识到他们正在参加跨文化比较研究。研究者还必须确保不同文化下的人们以相同的方式理解刺激材料、测量工具、变量和研究情境的含义。例如，在材料的翻译方面，需要保证从一种语言翻译成另一种语言时，被试理解的含义是一样的。一种常见的翻译方法是回译（back-translation），首先从测量工具最初被创造出的语言翻译为第二种语言；然后，由双语者将其翻译回原始语言，这名翻译者不能看到原始版本；将原始版本与翻译回来的版本进行比较，可以发现有问题的翻译并加以修改（Brislin，Lonner，& Thorndike，1973）。并且，这里的翻译强调的不是逐字逐句的语言上的精确翻译，而是要求翻译前后的语言在两种文化下具有等价的含义，为此可能需要替换一些具体的描述词，以达到含义相同。

跨文化研究有两种不同的策略或途径，一种是普遍性（etic）途径，另一种是特殊性（emic）途径（Pike，1967；Berry，1969）。这两个词来自语言学的概念，分别源自语音学（phonetics）和音素学（phonemic），语音学研究人类语言的普遍特征，并不特指某一具体语言；而音素学研究特定语言的语音及其负载的含义，对任何一种语言都是独特的。跨文化研究的普遍性途径假定行为和心理规律是普遍的，并据此展开研究，直到发现文化差异的证据。特殊性途径从集中研究特定文化群体的独特属性开始。多数跨文化研究是从“强加的普遍性”（imposed-etic）开始，把西方概念和测量方法应用于非西方文化，认为这些概念和测量在新的文化情境下具有相同的含义，但实际上并不确定这些概念和工具应用到相异文化下究竟是否合适。而如果遵循特殊性途径，先在不同的特定文化背景下进行研究，在研究累积的基础上结合比较不同文化下的特殊性，就可以发展出具有“获得的普遍性”（derived-etic）的测量工具，真正找到具有普遍性的行为和心理特征。

有学者指出，美国和其他国家研究者在考察跨文化社会行为上经历了几个发展阶段（Smith，Bond，& Kagitcibasi，2006）。第一个阶段是重复研究，如前文所述，这是确保研究效度的重要方法，因此，来自不同国家的研究者互相合作，试图检验在一种文化下发现的现象是否可以在其他文化下得到重复。在第6章将会提到阿希的群体压力实验，这个实验证明，当一些实验者的同谋就线段长度问题一致做出明显错误的判断时，真实的实验被试有时候也会给出错误判断（Asch，1957）。阿希最初发现被试的反应中有大约37%是从众的。有研究者对134个采用阿希从众范式的研究进行元分析，其中97个研究采用美国被试，其余研究的被试来自16个其他国家（Bond & Smith，1996）。结果发现，欧洲被试的从众反应低于美国被试，而另外的其他国家被试的平均从众反应高于美国被试。这些结果表明，同样的标准程序在世界的不同地方造成不同的效应，需要一种理论来解释这一文化差异。另外，尽管阿希等研究者称他们实验中发现的现象为从众，但实际上被试的反应并不总是由于从众，也许被试是怀疑自己的视力，也许是为了避免让做出错误回答的人尴尬。第6章将讨论米尔格拉姆的服从权威实验，第7章将介绍社会懈怠效应，这些研究也在不同国家进行了重复研究，发现了文化差异的存在：有些国家未出现显著效应，有些国家得到的效应与美国被试相反。不过，这些研究也提示文化差异的一个重要方面——集体主义与个人主义的区别，这有助于解释这些效应差异。另外，社会心理学研究在很大程度上依赖于大学生被试，这些被试与一般人群是有区别的。在进行跨文化比较时，大学生被试为主的现象尤其会带来问题。在发达国家，大学生占他们年龄段人群的比例较大，而在不那么发达的国家，只有很小一部分人能够上大学，这些人可能属于精英阶层。对这两个样本进行跨文化比较是很有问题的，应该尽量保证在不同文化下抽样的人群具有可比性。

随着社会心理学研究在世界各地的实施，跨文化研究进入第二个阶段，研究者认识到实验方法的一些缺陷，一些研究者主张去除方法中心主义（decentring research method），提倡研究方法的多元化。在这个过程中，本土心理学（indigenous psychology）开始兴起，来自主流美国社会心理学的实验方法不再占核心地位，更多元化、在特定文化内适用的方法更多地被采用。本土心理学提倡的观念有，例如，作为研究者应该是特定文化内的当地人；在研究心理或行为现象时应考虑到社会文化情境；重视特定文化内独特的现象；根据自身文化而不是西方文化的知识传统构思研究，等等（Yang，2000）。不过，本土心理学研究带来了另外的问题，例如，某种文化下的概念是该文化唯一具有的，还是在其他文化中也有类似的概念？如果是后者，如何在不具备标准化方法的情况下证明这一点？如果是前者，这只是为数不多的细微的独特现象，还是非常重要和大量以至于影响到人类心理和行为的普遍性？无论如何，本土心理学还是提供了有价值的洞见。例如，第一个阶段的不少跨文化研究只是直接比较不同国家被试的平均分数，这些分数基于相同的实验程序得出。但是，无法得知一个听起来相似的概念在不同的文化背景下是否具有相同的含义。要发现一个概念的含义，需要确定在每种文化背景内部与它有关的因素。如果发现一种现象在不同的文化背景下有相同的相关因素，那么可以比较肯定研究的是等价的现象。因此，这一阶段的重要贡献是提醒研究者：如果想要验证一个概念是否具有跨文化普遍性，最好在不同文化内部实施一系列并行的研究，而不是简单地只比较这个概念上不同国家的平均分数（Smith，Bond，& Kagitcibasi，2006）。

在第三个也就是当前阶段，来自不同国家的社会心理学家在平等的基础上越来越多地进行合作，依赖于清晰阐述的理论和方法来解释文化差异（Smith，Bond，& Kagitcibasi，2006）。首先，当前研究通常基于某一文化内部和外部的研究者之间平等的合作。特殊性研究者很容易假定他们文化的某些方面是独特的；而来自文化外部的、强加的普遍性研究者又很容易假定他们的测量抓住了特定文化的所有重要方面。这两方的平等合作可以互相补充不足。因此，好的跨文化研究应该整合普遍性和特殊性两种视角。其次，现有研究在测量上有较大进步。一些研究需要测量态度、信念或价值观，使用的工具是评定量表，例如“利克特量表”、“语义差别量表”等。例如，5点的利克特量表需要被试回答同意或不同意一些陈述的程度，1代表强烈不同意，2代表不同意，3代表中立，4代表同意，5代表强烈同意。这类量表的结果容易受到默认反应偏差（acquiescent response bias）的影响，即一些人倾向于对陈述做出“是”的反应，而且默认反应偏差被证实存在文化差异。这一偏差可能会造成解释跨文化比较结果时的误解，有可能是它造成的结果差异，而不是研究者真正想要考察的差异。因此，现在的研究考虑到默认反应偏差的可能性，均衡需要积极反应和需要消极反应的条目，或者用统计方法估计和扣除这一偏差的效应。最后，跨文化心理学家已经发展出一些理论来指导他们的研究。早期的跨文化研究往往随意选择两个国家来进行比较，并不考虑为什么要选择它们。而当前研究具有理论方面的指导，关于文化的界定、选择以及如何测量某些变量都会在某种理论框架下进行。这些理论具体讨论了文化如何影响社会行为，在本书后续章节会具体介绍。

第4节 社会心理学的研究方法