我们何以不同：人格心理学40讲最新章节_王芳著

07. “大五人格”是怎么来的？词汇学假设与因素分析

前文一再提及“大五人格”是目前心理学界公认最为理想的人格描述模型，那么它究竟从何而来，科学性又体现在何处？为了回答这个问题，需要从奠定大五人格模型方法论基础的“词汇学假设”（lexical hypothesis）说起。

对于人类来说，词汇、语言、文字的意义非凡。如路德维希·维特根斯坦（Ludwig Wittgenstein）所言，人类活在语词织就的大网之下，并非人类控制着语词而是语词控制着人类，从思想到行为。的确，假若某个事物在我们所掌握的语言中找不到合适的表述，我们可能永远想不出它的样子，它在我们的世界里甚至都不存在，于是，一个人使用的语言即在某种程度上划定了其认识世界的边界（从这个意义上说，学外语可以拓宽世界的边界）。语言还会影响到思维，例如，研究发现，相比于母语，做决策时用外语思考将更加审慎（e.g., Circi et al., 2021），原因或在于，母语使用起来经常“不过大脑”故而太“丝滑”了，而操起不太熟练的语言去思考时则需斟字酌句，进而可能启用有意识的加工并做出更为理性的决定。

更有趣的是，我们所用的语言似乎也与人格的表达存在某种关联。人们常说“不一样的人说不一样的话”，反过来或许也成立，“说不一样的话可能成为不一样的人”。例如，在生活中常有这样的感觉，当一个人使用的语言从一种切换到另一种时，其性格好像也会随之改变，好比说起吴侬软语给人感觉很“软糯”，而一切换到东北话，整个人就“社会”起来了。文化心理学研究的确发现，语言会启动相应的“文化人格”，比如，让精通英日双语的人用英语思考和表达时，他们表现得更为个体主义，而用日语思考和表达时则更为集体主义（e.g., Oyserman & Lee, 2008）。

语言不仅能启动相应的人格表达，还能记录和编码特定社会中存在的人格差异。一般来说，某一社会文化中说、写和用的语言应该能够包含描述这一社会文化中任何一个个体所需的概念，且某个特征越重要，它在相应语言中的代表性就会越高。因此只要某个特质在某个社会中是真实存在的，它就一定会体现在这个社会的日常语言中，被特定的词所描述。这一“词汇学假设”大大推动了人格特质研究的发展，因为既然语言可以编码个体差异，那么就可以通过分析某一语言中描述个体差异的词汇进而去推测到底存在哪些人格特质。此外，人们惯于使用形容词来描述人，于是词汇特别是形容词就成了探究人格特质的可靠媒介。

1936年，人格词汇学研究的奠基人、美国心理学家戈登·奥尔波特与他的研究生亨利·奥德博特（Henry S. Odbert）以1925年版《韦氏新国际英语词典》为素材，从中挑拣出了“能够把一个人的行为与其他人区分开的所有词汇”共计17,953个，占到该词典总词汇量的4.5%，且绝大多数为形容词。后经去除同义词等工作缩减到了包含4504个词的“奥尔波特—奥德博特词表”（Allport-Odbert List; Allport & Odbert, 1936），该词表即成为后续研究者探究人格特质进而形成大五人格模型的基础。

但是，即便经过了缩减，4000多个词依然太多了。进一步的简化提取工作得益于一个统计方法——“因素分析”（factor analysis）的发展。因素分析的大致原理是：如果一些形容词描绘的是同一个特质，那么让人们就这些词描述自己的恰当程度打分，得分之间就将出现高相关，进而得以发现它们背后共同的内蕴特质。例如，现在有“健谈的、活泼的、有条理的、谨慎的、精力充沛的、整洁的、自信的、开心的、自律的、负责的”十个词，找一些人按照这些词符合自己的程度在1～5的量尺上逐一评分（1=一点都不符合，5=完全符合），然后进行因素分析，结果大概率会发现，认为“健谈的、活泼的、精力充沛的”很符合自己的人也会在“自信的、开心的”上打高分，但却不一定会在“有条理的、谨慎的”上打高分；而觉得自己很“有条理和谨慎”的人则大有可能同时也认为自己是“整洁的、自律的、负责的”。于是，原有的十个词将在得分上分成两类（“健谈的、活泼的、精力充沛的、自信的、开心的”和“有条理的、谨慎的、整洁的、自律的、负责的”），它们各自内部相关性很高，但和另外五个相关性很低。由此，十个词背后隐含的两个特质就清晰可知了——前五个词代表着“外向性”，后五个词代表着“尽责性”。

就这样，经由因素分析的处理，那些彼此紧密联结但与其他词关系不大的人格形容词构成了“因素”，也就是“特质”，这一方法最大的好处是减少乃至消除了冗余的人格描述信息。也是经由这样一套流程，“奥尔波特—奥德博特词表”里的4504个人格形容词提取出了大五人格模型的五个基本特质。当然，大五人格模型并不是通过某个单一研究或一次性尝试获得的，而是囊括了大量研究和海量数据（包括来自不同文化和语言的数据）的结果，进而被重复证明是有效的（综述见McCrae & John, 1992）。在整个过程中，人格心理学家的工作方式有点类似于化学家，他们像化学家检验化学元素的存在一样并未先入为主地去假定存在哪些特质，而是自下而上地采用多样方法针对多样人群采集大量数据，再对数据进行因素分析，最后屡屡发现总是能提炼出这五个特质且它们可以涵盖大多数其他已知的人格因素（Bainbridge, Ludeke, & Smillie, 2022）。于是，人格研究者们慢慢形成了共识并将“大五人格”作为了最基本的人格特质描述量尺。

进一步地，既然可以经由语言词汇发现普遍的人格特质，而不同人格的人又会用不同的语言词汇表达自己进而形成独特的个人风格，那么可否通过分析一个人的日常语言从而推论出其人格特点？答案是可以。如今技术已然发展到无须填答问卷，只要分析一个人的日记、电子邮件或在社交媒体上的活动信息（这些均能或多或少反映出一个人的人格特点），就能知道这是一个怎样的人，这一技术称为“基于机器学习的人格测量”（machine learning-based personality assessment；综述见Bleidorn & Hopwood, 2019）。它的原理并不复杂，以“大五人格”为例，先让一些人完成已经很成熟的大五人格问卷测验，获得关于他们人格的可靠得分，然后匹配他们的自然语言数据（如在某个社交媒体上的发言）或其他行为数据（如对特定内容的点“赞”），分析其中哪些可以与已经测得的人格结果关联起来。例如，已有研究发现，高外向性的人在社交媒体发言中更常用到“聚会”“周末”一类的词，而低外向性的人则更多使用“阅读”“思考”之类的词（Schwartz et al., 2013）。一旦将特定的人格特征与特定的数字印记联系起来，便可建立一个预测模型，此后更多的人不再需要做人格测验，基于预测模型分析他们在给定平台上的言行即可远距离并无侵扰地推断出其人格特点。

在一个经典研究里，研究者便经由此流程构建起了一个精度相当高的预测模型，该模型可仅凭某一用户在某社交媒体上对他人发布内容点“赞”的数据计算出其大五人格，且当收集到的点“赞”数据达到260个时，由模型估计出的该用户大五人格的准确度即超过其配偶评估的准确度（Youyou, Kosinski, & Stillwell, 2015）。换言之，只要260个“赞”，计算机就能比人们最亲近的伴侣还要了解他们，这不得不说是一件“细思极恐”的事情。

2018年，国际知名社交媒体平台“脸书”（Facebook）爆出重大丑闻，平台上超过5000万的用户数据遭到泄露，导致其市值一夜之间缩水上百亿美元，史称“Facebook泄密门”事件。后续经媒体披露，遭到泄露的海量用户数据疑似被用作了政治用途，其中包括干预2016年美国总统竞选，这一消息引起全美乃至全球舆论一片哗然。除Facebook外，这一事件的主角还有一家名为“剑桥分析”（Cambridge Analytica，简称CA）的英国公司。这家其实和剑桥大学毫无关系的公司的主要业务是提供信息精准投放的策略咨询，依托的便是时下流行的大数据挖掘和基于机器学习的人格测量等技术手段。在“泄密门”事件被曝光后，这家公司的所作所为亦浮出水面，其中最爆炸的是受雇于唐纳德·特朗普（Donald Trump）的竞选团队，在2016年美国总统竞选过程中以Facebook为平台结合心理分析和线上营销意图操纵美国选民的投票行为。

这一事件非同小可，那么究竟是如何泄的密？追根溯源是一个人格测验惹的祸。当时约有32万Facebook用户被付费招募完成一个由CA公司主导的人格测验，内容正是大五人格。受测者在完成测验时授权测验方可以读取他们在Facebook上的数据（发帖、评论、点“赞”等），然而，实际上，最后不仅他们自己的信息被分析，他们关联的所有好友（这些人并未授权）在Facebook上的使用信息也全部被CA公司掌握并用于进一步分析，这显然是违法的。之后，CA公司使用上文提及的方法，首先根据32万完成测验的人建立起了以Facebook行为数据预测大五人格的计算机模型，然后再用这个模型推测出信息被泄露的那5000万用户的大五人格，进而根据他们的人格特征对他们精准投放竞选广告，以试图微妙地影响他们的投票行为。

如何影响？举个例子来说，当时特朗普和竞争对手希拉里·克林顿（Hillary Clinton）辩论的焦点之一围绕美国宪法第二修正案即持枪权展开，希拉里代表的民主党支持控枪而特朗普代表的共和党反对控枪。CA公司为特朗普一方服务，他们根据模型分析出来的用户人格向他们定向推送经过特别设计的广告。例如，对于那些神经质较高同时尽责性很强的人，给他们看一张盗窃者破窗而入的图片更能吸引他们去点击，因为高神经质关注潜在的风险（有人破窗而入怎么办），而高尽责性致力于解决问题，这张海报暗示的解决办法即为“需要有枪来对抗入侵者”；但是对于性格偏于内向且宜人性很高的人来说，这种方法就不再奏效，于是转而给他们看一张夕阳下一位父亲身背猎枪手牵孩子守望家园的图片，这对他们更具说服力，因为他们更温和也更关心家庭。

从这里可以看出CA公司的策略，它并没有尝试通过广告来改变什么，而是根据不同的人格特质及其组合所重视的价值观去强调和凸显他们本来就认同和关心的东西，进而激励他们去给特朗普投票。说实话，这一通操作最后到底在竞选中发挥了多大作用不得而知也无法评估，但特朗普团队对于新媒体战术的使用普遍被认为是其最终胜选的重要助力之一（e.g., Winston, 2016）。“泄密门”事件实质上是心理学与计算科学技术在政治领域的一次不当应用，它令人们震惊于居然可以如此进行人格测量和所谓的“心理操控”。

如今，像这样基于社交媒体及其他开放数据预测人格的技术已然相当成熟，类似的应用也常见于商业营销领域。例如，商家可以为高、低外向性的个体定制他们在社交媒体上看到的广告，同一个商品，高外向性的人看到的场景可能是一个热闹的派对，而低外向性的人看到的则可能是独自在家（e.g., Matz et al., 2017）。此外，除了人格，运用类似的方法还可以相当精准地预测用户的性别、肤色、社会阶层，甚至性取向和政治取向（e.g., Kosinski, 2021; Wang & Kosinski, 2018）。

如此看来，大数据时代的隐私担忧绝非危言耸听，时下的智能手机就相当于一个巨大的问卷，人们每一次打开、浏览和点击都好似在答题，源源不断地向后台输送数据，这些数据可能在我们不知道的地方被分析，最后再反过来用以影响我们的行为。当然，同样的技术也可以用于善举，例如通过个性化定制广告来激发捐赠等亲社会行为，或者通过自然语言分析识别自杀危机用户并向他们发送心理援助的资源信息（田玮，朱廷劭，2018）。在未来，不管是大众还是学术界，有关技术伦理、技术与人的关系、技术将膨胀至何种边界等话题还将被持续关注与讨论。