1917年,哈佛大学心理学家罗伯特·耶基斯(Robert Yerkes)在新泽西州的瓦恩兰组建了一个由美国心理学家组成的梦之队。他们的任务是为美国陆军新兵设计一套认知测试,即陆军甲种测试(Army Alpha Test)。该测试的目的是为应征入伍者匹配合适的岗位。该测试将确定参加军官培训的候选人,以及筛出那些精神状况不适合服役的人。由于新兵的教育背景大不相同,心理学家的任务是在尽可能少地参照课本知识的情况下,测试新兵的常识和智力。陆军甲种测试很大程度上借鉴了法国心理学家阿尔弗雷德·比奈(Alfred Binet)设计的开拓性智力测试。此外,它也测试了新兵对美国流行文化知识的了解程度,以及在军事生活中很重要的一种能力,即贯彻执行明显毫无意义的指令的能力。
你知道以下面试题的答案吗?
如果4大于2,那么划掉数字3,只有在3大于5的情况下,才在数字4下面画一条线。
1 2 3 4 5 6 7 8 9
你明白了吗?正确的做法是划掉数字3。
另一项测试,即陆军乙种测试(Army Beta Test),则试图绕过语言的门槛。该测试纯粹是视觉上的,适用于不懂英语或在陆军甲种测试中不及格的新兵。
第一次世界大战期间,约有175万名入伍者参加了陆军甲种测试。测试的结果按字母标示等级:从A(非常优秀)到E(非常差)。尽管陆军甲种测试起源于法国,但人们一直认为它是美国智慧的表现。战后,美国私营企业注意到了这一测试。在数十年里,智力测试成为美国招聘流程的惯例,得到心理学家的广泛认可。1926年,普林斯顿大学的心理学家卡尔·布里格姆(Carl Brigham)在大学的入学考试中采用了陆军甲种测试。它后来发展成为学术能力测试(Scholastic Aptitude Test,SAT)。大家可能都知道,SAT考试目前仍在被采用,但形式发生了很大的变化。
求职者一向不喜欢智力测试。从定义上看,智力测试显然有一定的难度,完成它是一项费力的工作。使用智力测试的雇主则似乎认同人性是一维的。不过,在大多数工作中,智力是否比单手做俯卧撑的能力更重要,至今还不是很清楚。
智力测试的广泛流行揭示了一个让人尴尬的事实:许多高智商的人在他们的职业生涯中并没有取得多大的成就。这削弱了智商作为工作表现预测指标的作用。
一个更值得关注的问题是,耶基斯、布里格姆和其他许多智力测试领域的心理学家同时也是美国优生运动 的倡导者。在1923年出版的《美国智力研究》( A Study of American Intelligence )一书中,布里格姆写道:“陆军智力测试已经毫无疑问地证明,就像美国黑人一样,意大利人和犹太人从基因的角度来说是无法被教育的。给这些天生的白痴和低能儿提供良好的盎格鲁-撒克逊式的教育 ,只会浪费金钱,更不用说让他们进入我们在医学、法律和工程方向上的优秀的研究生院了。”
不妨看一下支持布里格姆结论的几个陆军甲种测试问题。
你知道以下面试题的答案吗?
皮尔斯银箭(Pierce Arrow)汽车是在美国哪个城市制造的?布法罗、底特律、托莱多,还是弗林特?
阿尔弗雷德·诺伊斯(Alfred Noyes)是著名的画家、诗人、音乐家,还是雕塑家?
“天鹅绒乔” 的字样出现在哪种商品的广告中?牙粉、纺织品、烟草,还是肥皂?
与爱迪生一样,陆军甲种测试的发明者认为聪明人应该清楚他们自己正在做的事情。陆军甲种测试取材于生活在城市地区、经济优渥的美国白人的文化,这些人开汽车、听收音机、阅读报纸,而且熟悉日常播放的广告。然而,陆军甲种测试的对象除了城市精英以外,还有来自农村、几乎没有接触过消费文化的应征者,以及几年前才来到美国、在餐桌上说英语以外语言的城市移民。不足为奇,后两个群体在测试中得分一直不高。显然,今天的读者在回答这些问题时几乎都会被判定为低能儿,因为21世纪初的文化与1917年的文化截然不同。
1930年,布里格姆做了一件对美国种族主义来说史无前例的事情。他承认自己犯了错误。布里格姆发表了一篇题为《移民群体的智力测试》( Intelligence Tests of Immigrant Groups )的论文,说明为何陆军甲种测试不适合跨文化比较,并推翻了他之前的观点,认为这项测试不能被用于评测抽象、非现实的智力。他公开抨击自己在1923年出版的那部作品:“关于种族差异的整个假想的上层结构彻底崩溃了。”
这篇综述总结了一些最近的测试结果。这些结果表明,针对不同民族或种族群体的比较研究可能无法用现有的测试进行,尤其能够说明,作者自身的研究,作为这些种族比较研究中最自命不凡的一项,是毫无根据的。
智力通常被定义为学习的能力。然而,学习是一个需要时间的过程。在静态测试中测试该过程并不容易。因此,陆军甲种测试和智力测试所衡量的是测试者已经学到的知识。它们可能是一组事实,也可能是一些技能,如比喻或分数乘法。这类测试的核心假设是,那些天生善于学习的人掌握了很多技能,而且应该已经学过测试中的这些内容了。
但是,人们学到的知识取决于文化、阶层以及动机、好奇心一类的个性因素。智力测试在本质上将这些要素与认知能力混为一谈,而且人们很难在其中对它们进行区分。
优生学的精灵不会轻易地被关回瓶子里。一位参与陆军甲种测试设计的心理学家亨利·H.戈达德(Henry H. Goddard)在纽约埃利斯岛进行了智力测试。他报告说,大多数新来的移民“智力低下”,不过这个结论只适用于乘坐三等舱的移民,不适用于乘坐头等舱的移民。这类主张加上布里格姆的著作,使得美国立法者竭力拒绝“日耳曼”以外的民族向美国移民。在20世纪30年代的德国,阿道夫·希特勒上台后公开赞扬了美国对优生学的支持政策。但是,纳粹政权的崛起和大屠杀的恐怖,在被新闻广泛报道以及知识界热切讨论之后,浇灭了20世纪中叶美国对优生学及其背后的种族主义理论的热情。智力测试也受到了质疑。
1971年,美国最高法院就格里格斯诉杜克电力公司(Griggs v. Duke Power)案的一项裁决,被证明是使美国招聘市场不再广泛使用智力测试的最后一根稻草。被告是位于北卡罗来纳州的杜克电力公司,该公司长期对员工实施种族隔离政策。非裔美国人被分配到一个单独的部门,工资也较低。根据1964年的《民权法案》,这种做法是违法的。杜克电力公司名义上向所有种族的员工开放了高薪部门,但它要求求职者拥有高中文凭或在智力测试中达到一定分数。而在现实中,为杜克电力公司工作的非裔求职者往往比白人求职者更穷,受教育程度更低,所以很少能达到这些要求。美国最高法院认为,文凭和智力测试分数对于在北卡罗来纳州边远地区从事艰苦户外劳动的工作来说并不重要。智力测试利用法律漏洞,使被国会宣布为非法的工作歧视得以继续存在。
因此,美国最高法院裁定,如果中立的要求或测试导致少数族裔被雇用或晋升的人数不成比例,那么它们也可能是歧视性的。这种情况也被称为负面影响(adverse impact)。
在格里格斯诉杜克电力公司一案中,美国最高法院对招聘中“公平”这个具有某种哲学意味的问题进行了权衡。许多当代公司因此将多元化写入其发展愿景。请考虑一个典型的硅谷式问题:假设一家以男性员工为主、推崇兄弟文化的公司有100个空缺的职位,这些职位有1 000名求职者,其中400名是女性。如果在100名最合格(假设这是可以客观确定的)的求职者中,有55名是女性,那么,本着公平原则,公司最终应该雇用多少名女性?
每种答案都有其理由。大多数雇主更喜欢任人唯贤的答案(c),因为他们想要尽可能地雇用最有能力的劳动者。他们愿意相信,在不放弃更有资格的求职者的情况下,多元化也可以实现。
美国法律认同雇主有权雇用最合格的人才。但当被投诉存在歧视时,雇主可能会被要求证明其采用的评估方法能够识别出胜任这份工作的求职者。要证明整个招聘流程中的某项事实并不那么容易。
实际上,负面影响原则支持答案(a)。理想情况下,女性受雇雇员的比例应与求职者中女性的比例相等。符合这一标准的雇主可以很轻松地对歧视投诉进行抗辩。
如今,负面影响体现为美国司法部在1978年采用的“五分之四原则”(four-fifths rule)中。该原则建议大型企业在所有“受保护阶层”中按照该比例招聘求职者。法律保护一些群体不受就业歧视的伤害,其中包括由性别、种族、宗教、籍贯、年龄或身体残疾定义的群体。美国许多地区都采纳了这项政策,一些州则覆盖了更多受保护的群体。
五分之四原则要求雇主计算出每个受保护阶层中被雇用的申请人的百分比。这类群体中受雇人数的占比不能低于主流群体占比的五分之四。
举例来说,这意味着,被雇用的黑人人数应介于被雇用的白人人数的80%~125%之间。当这一比例低于80%时,黑人求职者可以认为他受到了种族歧视,而当这一比例超过125%时,白人求职者也会声称受到了歧视。
由于五分之四原则提供了一定回旋的空间,答案(a)和(c)代表的两种法律精神在实践中可能不会产生太大的不同。但五分之四原则并不能保证会被实施。在现实中,求职者几乎从来不能获得他们需要知道的用以判定是否存在负面影响的数据。而歧视性的诉讼往往只有在证据确凿的情况下才会被追诉。
格里格斯诉杜克电力公司案产生了许多后果,其中一些是始料未及的,种族评判方法(race-norming)即其中之一。比如说,能力倾向测试可以很好地预测一个人在某项工作中的表现,但它在某种程度上会表现出种族歧视。通过种族评判这一方法,每个求职者的得分都要与其同种族(或其他受保护群体)的求职者相对照。该评判方法的假设是,得分在亚洲人中排名前10%的亚洲人被认为与在白人中排名前10%的白人一样能够胜任工作。种族评判方法既可以避免负面影响,同时也允许各个公司使用其熟悉的测试和评估方法。
在20世纪七八十年代,美国联邦政府和38个州政府采纳了种族评判方法。但保守派人士把它与平权运动相比较,认为它构成了反向歧视。1991年由乔治·H. W.布什总统签署的《民权法案》修正案取缔了种族评判方法。
在某种程度上,美国的就业法通过更详细地规定雇主不能做什么来减少就业歧视,而不过问雇主能做什么。负面影响原则使雇主们对智力测试和能力倾向测试心怀戒备,即使有些工作明显需要更灵活的思维。负面影响的存在与否可能取决于一些超出公司控制的因素。一些美国公司招募了许多来自海外的高素质求职者,这导致了某些民族血统的群体的高入职率。这种做法使某些平时受到青睐的群体,如美国白人,也面临着负面影响,而当来自一个受保护群体的不合格求职者以超高比例申请一家公司的职位时,相反的问题就会出现。
然而,今天的雇主拥有相当大的权力来决定谁可以成为求职者。求职者看到的招聘信息是由领英或Facebook等平台基于对他们的了解而展示的。总的来说,这种情况非常普遍。Upturn数字技术研究集团的总经理阿伦·里克(Aaron Rieke)表示:“就像世界上其他类型的数字广告一样,人工智能正在帮助锁定哪些人可以看到哪种类型的职位描述。” 一家需要更多符合要求的女性或少数族裔前来就职的公司有很多办法找到他们。
关于负面影响的法律、科学和哲学思考,更加凸显了以下这个悖论:设计一个能以相当高的准确度来预测工作表现的评估方法并不难,但这些方法一般来说都是以某种文化参考框架为背景的。如果对该方法所基于的文化背景了解较少,那么有才华的求职者就将处于不利地位。如何应对这一问题是当前招聘工作的首要挑战之一。
心理学家罗伯特·霍根(Robert Hogan)、乔伊斯·霍根(Joyce Hogan)和布伦特·W.罗伯茨(Brent W. Roberts)在1996年的一篇文章中对“一种有益于平等就业、社会公正和更高生产力的力量”大加推崇。 他们所指的正是职业人格测试。
这几位心理学家认为,人格测试不会“系统性地歧视来自任何种族或国家的群体” ,也不会对残疾人或老年人另眼相看。因此,与智力测试相比,人格测试不太可能产生负面影响。
用于招聘的人格测试通常采用五因素模型(Five-Factor Model,FFM)或大五人格模型(Big Five)。1961年,在得克萨斯州拉克兰空军基地(Lackland Air Force Base)工作的两位美国空军心理学家欧内斯特·图普斯(Ernest Tupes)和雷蒙德·克丽丝塔尔(Raymond Christal)定义了人格中“5个相对强大且反复出现的因素” 。他们分析了应征入伍者的人格特征自我报告,从中寻找相关性。
大五人格模型并不复杂。它类似于以人格为元素的周期表。理论上,每个人都可以被设置于这个五维空间的某个地方。大五人格模型的5个维度可以被记忆为英文简写OCEAN,即开放性(Openness)、尽责性(Conscientiousness)、外向性(Extraversion)、宜人性(Agreeableness)和神经质性(Neuroticism)。
除了针对经验的开放性之外,其他的维度大致可以按它们的字面意思理解。开放性衡量的是对冒险、新颖的或非常规的想法以及文化探索表现出的好奇心和兴趣。更宽泛地说,开放性关乎创造力、想象力以及抽象思维能力。
五大维度中的任何一个维度都代表着一个测量某种基本人格特征及其反向表述的量表。外向性量表以极端外向为一端,极端内向为另一端。大多数人的表现介于两者之间。其他4个量表也可以以此类推。
神经质性是一个被贴上负面标签且颇具弗洛伊德理论色彩的量表。有些人更喜欢图普斯和克丽丝塔尔最初的命名——情绪稳定性(emotional stability)。它被认为是神经质性的反义词,所以两者都可以作为该量表的名称。
1961年,图普斯和克丽丝塔尔在一份空军技术报告中发表的这项理论,在当时几乎没有引起学术界或产业界的注意,但在接下来的几十年里,一些团队证实了大五人格模型的作用。为了辅助招聘工作,人格测试的结果必须能预测出求职者未来的工作表现。然而,直到20世纪90年代,这方面的数据仍一直很少,而且是让人生疑的。这时,一个研究团队声称人格测试结果与工作效率之间存在相关性。几乎就在同一时期,人格测试具备了从纸上测试转向在线测试的可能性,后者更便于实施,评分也更快。据估计,目前60%~70%的美国员工在招聘时要接受某种人格测试。 CVS、家得宝、百胜餐饮集团、劳氏、诺基亚、Walgreens和Xerox等许多大型公司都采用了此类测试。2014年,根据一项评估,人格测试业务每年可创造5亿美元的价值。
人格测试通常是自我报告式的。求职者被要求对诸如“我是派对的主角”等陈述回答“同意”或“不同意”。大多数试题想要测试的目标是很明确的。但一个显而易见的问题是,求职者有可能会错误地呈现自己。
“针对试题给出的答案代表的是自我展示,而不是自我报告。”罗伯特·霍根、乔伊斯·霍根和布伦特·罗伯茨写道。 他们认为,参试者不一定表现出了他是怎样的人,甚至不一定会表现出他自认为是个怎样的人。他所表现的是他希望别人将他看成怎样的人。一个声称“我对待每一项任务都有始有终”的求职者在现实中的表现可能并非如此,只是赞同这样一种价值观。
人格测试的试题很多,求职者通常要抓紧时间。最简单的答题方式是不去深思,基本上凭直觉回答。大多数人看上去确实是这样做的。通过对比心理学家的现场评估,商业型的人格测试已经验证了其有效性。产生不可靠答案的试题从问卷中被删除,只留下那些最适合的人格指标。
尽责性,即大体上的“职业道德”,通常被认为是招聘时最需重视的大五人格品质。那些责任心较低的人可能包括“永远无法完成任何一件事的高智商人群”,即微软的雇主们最讨厌的那类人。外向性方向上的高分对于销售工作和与公众打交道的工作来说至关重要,而对于其他工作,中等分数甚至低分就可以符合要求。在设计、咨询和广告等创造性领域,求职者需要在针对经验的开放性一项上有较好表现。
“如果发生了非常糟糕的事情,我需要一段时间才能再次快乐起来。”申请在麦当劳工作的人可能会在测试中遇到这样的陈述。据称,点击“同意”代表与神经质人格有相关性。这些求职者被认为是喜怒无常的,难以与他人相处,无法专注于自己的工作。招聘者很容易得出这样的结论:这类员工会带来更高比例的冲突、解雇、诉讼和“坏运气”。
肯·拉赫蒂(Ken Lahti)是弗吉尼亚州阿灵顿市CEB公司的副总裁。他声称,在线人格测试可以“筛掉30%最不合格的求职者”。 简而言之,一项快速、廉价的测试就可以让雇主筛掉那些满腹牢骚、逃避责任和制造麻烦的人,而把注意力集中在有动力完成工作的团队成员身上。这难道还会有问题?
1947年,心理学家罗斯·斯塔格纳(Ross Stagner)愚弄了一群人事经理。他为他们做了一项人格测试,然后报告了虚假的测试结果——随机从占星术书中摘录的陈述。接着,斯塔格纳要求这些招聘专家对他的“测试结果”的准确性进行评分。大多数专家给斯塔格纳的报告打了高分。
次年,伯特拉姆·R.福勒(Bertram R. Forer)上演了一出更为人知的好戏。福勒对39名学生进行了一次虚假的人格测试。然后,每名学生都收到了一份内容相同的伪造评估报告:
正如斯塔格纳所测试的那些人事经理一样,福勒的学生们压倒性地认为这些评论道出了他们自身独特的人格。
现在,相当多的关于“陷阱”研究的文献使得这个话题获得了它的专业名称:福勒效应(Forer effect)或巴纳姆效应(Barnum effect)。后者取自美国著名杂技演员P. T.巴纳姆的名言“每分钟都有一个傻瓜出生”。 这些研究表明,如果一项人格测试适用于几乎所有人,观点积极,而且由权威机构提供,即使其中的评估毫无根据,它也会被认为是准确的。
我们有理由怀疑巴纳姆效应是否在人格测试及其他评估技术的流行中发挥了作用。密歇根州立大学管理学教授弗雷德·摩格森(Fred Morgeson)解释说:“管理者从直觉上愿意相信,人格是重要的。” 对于技术背景出身,并急于学习人力资源知识的企业家来说,人格测试尤其具有吸引力。在线人格测试是量化的、数字化的,边际成本几乎为零。任何一位现代管理者都愿意相信人格测试是有效的。但人格测试营销人员很少披露的是,没有一种已知的员工评估方法具有管理者和其他人通常所认为的那种预测能力。摩格森认为,人格测试与工作表现之间的联系“远低于该领域让我们相信的程度”。
由于面对面的面试仍然是招聘的基础,产业心理学家耗费了大量资源,试图确定哪些面试技巧最能有效地预测工作表现。20世纪经久不衰的一项创新是行为面试(behavioral questions)。你有没有做过老板不让你做的事?结果如何?请描述一个你没有足够的时间完成工作任务的例子,或者给出一个你不得不处理客户提出的不合理要求的例子。
面试官认为行为面试是一种非正式的人格测试。其基本原理是,在一项测试中很容易对标好的品质,但编造一个连贯一致的叙述却很难。行为问题引出的经历通常在一定程度上是真实的,能够说明求职者将如何处理在未来出现的类似情况。
视频面试和人工智能推动了行为面试的更新迭代。HireVue网络招聘公司推广了一个颇受欢迎的视频平台,在该平台上求职者借助手机或电脑录制视频,并回答一系列行为问题。HireVue公司的首席技术官劳伦·拉森(Loren Larson)解释说:“我们捕获了成千上万的数据点——情绪、选用的词语、主动或被动的动词、求职者说‘嗯’的频率。”他表示:“如果你不苟言笑,那你可能不适合做零售工作。”
该系统不是严格意义上的测谎仪,但它的确通过分析声调和面部表情来判断求职者的诚实度和焦虑状态。尽管招聘人员可以复查面试视频,但求职者有可能在没有人看过他们的面试视频的情况下被淘汰。人类的境遇是不是很可悲?HireVue公司的客户包括亚特兰大公立中学、波士顿红袜队、达美航空公司、嘉年华邮轮公司、宜家、英特尔、科勒、卡夫亨氏食品公司、T-Mobile、Urban Outfitters。
无论是面对面或线上面试,行为面试都受到人力资源行业的重视。求职者可能会认为这类面试相对简单,压力也较小,但它们却可能成为雷区。行为面试邀请你吐槽糟糕的老板、阴险的前同事和坏运气。遗憾的是,面试官并不认识你那位糟糕的老板,除非对他的控诉上了新闻。你越是抱怨老板,面试官越会怀疑你们双方都有错。面试官可能会担心抱怨太多的求职者很难相处,而且,求职者谈论现任老板和同事的方式预示着他们在被聘用后将会如何谈论新公司。
行为问题面试也不能免受巴纳姆效应的影响。面试官可能过于相信一段信手拈来的趣闻揭示人格的能力。这类面试的效果已因为自身的流行度而受损。在波士顿工作的数字策略师布雷特·鲁迪(Brett Rudy)表示:“任何人都可以花15分钟谈论自己。” 他发现标准的行为面试“毫无用处,因为每个人都已对此有所准备”。除了毫无经验的求职者之外,所有的求职者都知道一些最常见的问题,而且被建议在参加面试时要准备一些精心修饰过的故事。最少的话,求职者只要准备4个故事就够了,它们应该包括:
如果面试官罕见地问了一个真正原创的问题,精明的求职者会像任何政治家那样敷衍道:“这是个好问题。我想说……”然后转到一个老生常谈的故事上。
路易斯·阿布鲁(Luis Abreu)是英格兰布莱顿市的一名用户体验设计师。在2014年的一次会议后,他在网上写了一篇文章,总结了苹果iOS 8系统的隐私性和安全更新。这篇文章在开发者中很受欢迎,阿布鲁收到了一封电子邮件,信中询问他“是否愿意到苹果公司寻求职业发展机会”。
阿布鲁回复道:“当然愿意!”
阿布鲁接受了3次电话面试和5次视频面试,每次面试的时长大约为半个小时。3周后,阿布鲁收到了梦寐以求的邀请,请他前往位于美国旧金山库比蒂诺的苹果公司总部进行面试。苹果公司为阿布鲁支付了机票和3个晚上酒店住宿的费用。
在苹果公司总部的面试包含了大量的样本工作任务,耗时6个小时,相当于大半天。此外,阿布鲁还要应付1顿工作午餐,以及10多位面试官。阿布鲁回到英国1周后,收到了1封电子邮件,上面写着:“我们将不会进一步处理你的求职申请。”
许多在苹果公司“宇宙飞船”总部面试过的人讲述了几乎一模一样的故事:
这正是许多严苛的公司招聘现状的写照。这些公司愿意面试大量超出合格标准的人,而最后拒绝其中的大多数。这种现象就是无错误肯定(no-false-positives) 原理在现实中的体现。这种做法似乎对苹果公司很有效,但对求职者并不总是适用。另一位苹果公司的求职者说:“我的时间对他们来说显然只是商品。” 他经历了两次申请流程,但两次都被拒绝。
工作抽样是当代招聘评估的另一大支柱。求职者会得到一些样本任务,比如开发营销计划、编写应用程序或起草合同。他们被要求在面试中或在限定的时间内完成工作。微软公司开创了工作抽样的先河,继而又发明了长达一整天、马拉松式的面试。今天,工作抽样被技术行业普遍接受,在需要专业技能的多个领域中的应用也很广泛。
工作抽样的基础假设是实践出真知。求职者在一项技术任务中的表现应该能预示求职者在未来工作中将会如何执行类似的任务。这是一个获得常识和研究支持的判断。
对雇主来说,工作抽样的成本相对较高。它要求多个技术员工抽出工作时间进行面试或检查由求职者完成的任务。为此,微软公司和其他雇主想出了突然终止不成功面试的办法。SpaceX公司有一项政策,一旦一位面试官认为求职者不适合该职位,他就可以中止面试流程。该公司创始人埃隆·马斯克规定,每一个招聘决定都必须得到全体同意。
工作抽样也有其不足。工程师迪佩什·德穆拉里(Deepesh Deomurari)解释说:“即使是马克·扎克伯格也可能无法通过所有的面试,因为他可能会忘记一些面试官认为他应该知道的Java库的细节。”而在现实世界中,程序员可以按照自己的节奏工作,查找他们一时忘记的东西。
另一个问题是招聘过程的应试教育化。一项标准化考试可能会提问美国内布拉斯加州的首府在哪里,而且默认能回答该问题的学生也知道其他州的首府。但是如果每个人都知道这个测试只要求知道内布拉斯加州的首府,老师们就可以跳过这一类的问题。这种应对策略可以提高测试分数,让老师和学生在这个过度迷信衡量标准的时代获得优异表现。但实际上,学生并没有学到太多知识。
对软件工程师来说,“力扣面试”(LeetCode interview)就属于这类“应试教育”。力扣是一家很受欢迎的、提供编程和面试培训服务的网站,为工程师提供了成百上千的标准技术问题和面试任务。力扣官网的窗口右侧提供了一个代码编辑器,它允许用户以选定的语言输入代码。用户可以执行代码并检查它的效果,也可以查看其他用户的评论。从10岁的神童到职业生涯中期的转行者,力扣网站为每个人提供了学习编程的途径。它允许用户进行模拟面试,并按照难度对特定公司在面试中提出过的问题进行评级。HackerRank、InterviewBit和Topcoder等网站也提供类似的功能。
这样一来,程序员通过研究流行的技术问题来为面试做准备,而不知如何提出好的问题和工作任务的面试官可以从这类代码网站上寻找这些面试问题。正如思科公司的一位工程师所言,这将导致“对单一事项的过度优化” 。求职者变得更擅长回答力扣提出的这类问题,即用有效的、反直觉的解决方案来解决小问题。在实际中,它们确实是应用程序的构建模块,但谷歌公司的一名员工认为,力扣面试问题的缺陷在于未能着眼于大局,即不考察“从整体架构方面思考问题的能力” 。这种能力需要搭建一个由知识、直觉和技能组成的更庞杂的体系。另一位工程师发出了如下的疑问:
有人相信力扣式的面试问题是一个很好的指标,足以表明某人在其专业领域是一位优秀的工程师吗?我以前和FAANG的面试官讨论过这个问题,他们每次给出的回答都是,“我个人的想法很重要吗?不重要,但我想它能帮助你了解求职者解决问题的方式”。说实话,这听起来像是在说大多数面试官并不相信自己对求职者的评价,只是被迫在为自己的评价方式进行辩护。每个人都知道FAANG的面试已经变成了力扣的练习项目。
这样的招聘案例显然是失败的。像其他指标一样,工作抽样是一个有嘈杂信号的指标,但在衡量一个特定的、可定义的技能组合上的能力时,招聘者似乎并没有更好的方法。一个临时抱佛脚的求职者也可以对号入座并展示出主动性。
在招聘上最挑剔的公司里的人力资源员工不会因为力扣的问题而辗转反侧。他们现在谈论的是错误肯定和错误否定——谷歌公司长期使用的两个新名词。错误肯定是指一名求职者在面试中表现优异并被录用,但却成了一个不合格的员工,所以这是一次让人遗憾的聘用。错误否定则恰好相反,一位本可以成为一名好员工的求职者,却因为面试表现不佳而被淘汰。
两种情况似乎都一样糟糕,而错误否定似乎表现出了更大的不合理性。不过,组织化的思维方式是另一回事。亚马逊的创始人杰夫·贝佐斯说:“我宁愿面试50个人而没有结果,也不愿雇用一个错误的人。” 没有人会因为错误否定的结果而受到指责,公司也不可能知道自己错过了一位优秀的求职者。被错误肯定的求职者则会成为团队的一分子,他的同事必须更加努力地工作来为这个表现不佳的员工收拾残局。如果公司最后不得不解雇一名糟糕的员工,那将会是一个代价高昂、耗费精力的过程。一次错误肯定会给所有最初批准这次聘用的人都带来不利影响,他们因此更谨慎行事。当一家公司有许多合格的求职者时,为什么还要冒险呢?
与大多数科技公司不同,苹果公司拥有它自己的全球连锁零售商店。据称,苹果新开的零售店里的每个空缺职位都会有50名求职者申请。 对每个人进行一对一的筛查是不切实际的。相反,苹果公司采取了集体面试的方式。数十名求职者被带到一个大房间里,参与一项结合了人格测试、真人秀和赛前动员的活动。通常情况下,几名苹果公司的员工担任面试官兼主持人,给这个团队出题或安排游戏项目,求职者依次回答问题或展示自己。一个常用的试题是,“告诉我们一些关于你自己的事情”。小组成员则要猜测这些事情是不是真实的。
大多数人都不善于撒谎,这是行为问题面试的前提。群体智慧非常善于发现骗局。求职者是否会通过愚弄大众的方式“赢得”这场比赛并不重要。苹果公司不会因为最具说服力的骗术而雇用你。
集体面试其实是一种变相的速配约会。求职者没有太多在聚光灯下的时间以打动面试官。好的策略是,只要有机会,你就把焦点转回到自身与工作相关的资历上。如果你在中学时为一位韩国流行歌手开通了一个Instagram账号,并获得了10万粉丝,请你在集体面试中提一下这件事。
你可能听过这条相亲建议:注意你的约会对象对待服务员的态度。行为方式反映出他/她是怎样的人。苹果公司的集体面试也是如此。面试官会着重观察一个求职者如何对待其他求职者。与面试官的互动方式可以充分乃至极大地预示他们在工作中的表现。成功的求职者会把自己介绍给别人,与人们打成一片,并避免说坏话和背后中伤的行为。
集体面试,就如同一对一面试一样,通常包括一些“古怪的问题”,即那些超乎常理的问题。不得不说,有些古怪的问题真的很傻。
你知道以下面试题的答案吗?
你的超能力是什么?
你最喜欢的迪士尼公主是谁?
如果你是盒子里的一支新蜡笔,你希望自己是什么颜色?
这一类问题没有标准答案。面试官有可能会自鸣得意地说明这一点。他们问这些问题只是为了表明他们自认为这家公司是多么前卫、富有创意和年轻化。这些问题是文化契合(culture fit)崇拜的一部分。面试官认为公司有独特的、只能通过雇用那些与之相契合的人才能得以保持的文化,而这些多少有些无聊的问题可以对标这类人群。尽管文化契合一般被理解为多样性的对立面,但当下这两个流行语经常在同一场合被提及。
“如果僵尸来袭,你会怎么做?”Capriotti三明治店的首席执行官阿什利·莫里斯(Ashley Morris)会问求职者这个问题。“它的确没有标准答案,”莫里斯说,“我们的希望是,我们将由此发现这个人的内心世界、对他来说真正重要的东西、他的品行到底怎样,以及他是否适合公司的文化。”
甲骨文的联合创始人拉里·埃里森(Larry Ellison)曾让招聘人员提问:“你是你认识的人中最聪明的吗?”如果对方回答不是,他们接着会问:“在你认识的人里,谁是最聪明的?”然后,甲骨文的招聘人员会试图雇用求职者提到的那个人。 而且,职场中的传言确实是这样说的。
Warby Parker公司的标志性问题是:“你的上一套服装是什么风格?”联合创始人兼首席执行官戴维·吉勒博阿(David Gilboa)表示,它测试的是与该品牌“品味的特立独行”相符合的特质。“如果我们雇用了世界上技术最熟练的人,但他的工作风格却不适合我们,他仍然不会有成功的表现。”
风险投资家、PayPal联合创始人彼得·蒂尔(Peter Thiel)透露,他最喜欢的面试题是“告诉我一件几乎没人赞同你但却是正确的事”。这个问题曾在舆论中引起热议。蒂尔解释说:“这是对原创性思维的测试,也是在考验你是否敢于在不友好的面试环境下大胆说出自己的想法。毕竟,对面试官讲述一些他可能不认同的事情,从社交的角度看,总是令人有些尴尬。”
蒂尔指出,最常见的3个答案是“美国的教育系统已经崩溃而且急需修复”、“美国是独一无二”以及“上帝是不存在的”。他认为这些都是糟糕的回答。就前两个答案来说,它们并没有那么不受欢迎,而使得“几乎没有人”赞同。至于第三个答案,作为一个信奉基督教的自由主义者,蒂尔表示,它“只是一场熟悉的辩论中某一方的观点”。
就像曾经流行的那个经典问题“说出你最大的缺点”一样,蒂尔的问题令求职者进退两难。一个好的答案必须是令人信服的,但又非常没有市场。这就像在感恩节餐桌上,人们通常要回避政治和宗教话题一样。在工作领域的争论中,在选择立场之前,你也应该三思而后行。面试官很可能认为他比你更专业,而且他可能持有与你相反的观点。
蒂尔曾在文章中指出,成功的公司是以“关于这个世界如何运作的一些公开但却不为人知的秘密”为基础的。 他举例说,Airbnb、Uber和Lyft这些公司都认识到一个事实,即许多拥有房子或汽车的人都愿意短期出租这些物品,只要能找到一种足够简单的变现方式。就蒂尔的问题而言,那些可以发展成商业创意的答案才是理想的回答。求职者不妨谈谈如果一款应用程序可以匹配到合适的接收者,你认为人们愿意分享、出借、出售或捐赠哪些东西。
类似的挑战还包括“你倾向于寻求许可还是谅解”一类的问题。面试官是在询问,你是会选择让你的上级或管理层批准你的新想法,即“寻求许可”,还是先行动,然后再面对相应的后果,即“寻求谅解”。可以肯定的是,问这个问题的面试官会认为“寻求谅解”这个答案更能体现企业家精神。这家公司其实正在考虑某种类似于电动踏板车的业务,这类工具无须等待监管机构的批准就可以被投放到城市的人行道上。
这并不是说你应该全盘接受“寻求谅解”的答案。正如Zappos的首席执行官谢家华(Tony Hsieh)所推广的那个问题:“从1到10打分,你要给自己的古怪程度打几分?” 你应该表现得很古怪,但不要太古怪。
所有的公司和组织都是某种层级结构,希望它们的员工按部就班地行动。没有人想要一个总是突发奇想的员工。当一个组织或小型社会的规则很明确时,人们应该选择“寻求许可”的做法。其他选择都将浪费你的时间,因为你在捍卫你肯定会输掉的阵地。颠覆的最佳时机是规则还没有被建立的时候。这时,一个大胆的、全面有益的倡议最有可能成功。
“如果你是一种动物,你会是哪一种?”这一定是一个蠢到极致的面试问题。从初创企业到《财富》500强,它被广泛应用于各行各业,因此求职者并不会对它感到意外。但提出这个问题的那些人会很严肃地对待它。斯托米·西蒙(Stormy Simon)是Overstock网站的前总裁,她回忆说,有一次“一位求职者说,他把自己看成小熊猫,因为每个人都觉得它们很可爱,很容易接近,但事实证明它们真的很懒。尽管答案不理想,我们还是聘用了这位求职者,但在3周内我们就分道扬镳了。这恰好表明这个问题有多重要” 。
不错,任何正在审视当下招聘状况的人都必须承认,提出荒谬的面试问题并没有妨碍某些企业家和公司取得巨大的成功。但这些问题是否推动了他们的成功,则是另一回事。
正确的结论或许是,明星企业家可以问任何他们想问的问题,同时也和其他人一样容易受到巴纳姆效应的影响。求职者则有理由担心,针对他们面试表现的打分标准可能是独特和难以理解的。不是每个面试官都像埃里森或蒂尔那么有名,但大多数人都有自己独特且无法被谷歌搜索到的思路。
即使在Warby Parker,古怪的问题也不会像万圣节的服装竞赛那样层出不穷。最新颖或最古怪的答案并不会成为你被录用的理由。你要配合这些问题的本质来回答。你不要说,“我不看迪士尼电影”或“我最想成为的动物是人。从生物学上来说,人也是一种动物”。这相当于在告诉面试官这些被重视的问题是愚蠢的。它们的确很愚蠢,但是你的任务不是去宣布这一点。
面试已经流行了一个多世纪。在这期间,它们一直是心理学、社会学和管理专业人士研究的主题之一。研究者已经建立了大型的数据库,希望梳理出面试和工作表现之间的联系。这些研究涵盖了传统面试问题、行为问题、工作抽样,以及极少量的古怪的问题和逻辑题。研究者将面试与认知测试和人格测试相比较,认为它也能够预测职场表现。
这类研究有几个需要注意的地方。我们都了解过关于巧克力所造成的健康影响的冲突研究。问题的关键是巧克力并不是孤立存在的。M&M巧克力豆的消费者的生活方式可能与吃手工制作的松露巧克力的人截然不同。巧克力可能对健康有益,但也有可能导致一些不健康的后果,如肥胖症和糖尿病。对研究设计者来说,控制每一个变量是不现实的。媒体曾大力宣传一项“巧克力有益健康”的研究,尽管这项研究的设计很差,而且它是由斯莫尔斯咨询委员会(S'mores Adivisory Board)资助的。媒体对支持食用巧克力的研究的过度关注,扭曲了人们对该领域里科学的研究成果的认知。
类似的问题也适用于针对招聘的研究。几乎没有哪家公司自始至终只使用一种面试方法。雇主们也从不会随机雇用一组求职者,并跟踪他们在工作中的表现。学术研究中的数据大多来自大学生或在线志愿者的模拟面试,其结论是否适用于现实世界的职场还有待商榷。一些有应用前景的面试方法在商业媒体和大众媒体上被大肆宣扬,人们因此采用它们,但往往随后感到失望。这种情况从爱迪生所生活的那个时代就开始了。
基于这些认识,我们再来看看一个世纪以来真实可信的科学研究揭示了什么。最重要的发现是,招聘面试在预测人们的工作表现方面表现不佳。几十年来,心理学家一直试图告诉雇主们这一点——但他们并不想听。
1994年,艾伦·I.赫夫克特(Allen I. Huffcutt)和小温弗雷德·阿瑟(Winfred Arthur Jr.)报告称,基于面试的招聘决定对之后在职表现统计变化的影响只有4%。这个结果比抛硬币要好,但也好不了多少。另一些研究则表明,当面试与人格测试或认知测试等评估方法相结合时,面试官的判断实际上降低了决策的有效性。
对“薄切片”(thin slicing) 的研究表明,面试官非常容易被第一印象所影响,第一印象其实正是“薄切片”扩展交互的结果。在2000年的一项实验中,托莱多大学(University of Toledo)的心理学家特里西娅·J.普里克特(Tricia J. Prickett)、内哈·加达-简恩(Neha Gada-Jain)和弗兰克·伯尼尔(Frank Bernier)用常规的面试技巧对3名志愿者进行训练。 然后,志愿者作为面试官进行了59次模拟面试,他们询问的都是人力资源员工采用的标准问题,如:“你对自己10年后的打算是什么?”“你最大的缺点是什么?”“你和你的上司有过意见分歧吗?你是怎么处理的?” 每次面试持续约20分钟,并有视频记录。每次面试后,面试官会对求职者的一些特质进行评估,如受欢迎程度、智力、野心、诚信,然后就他们是否会雇用这个人给出判断。
每个视频都被剪辑成20秒的短片。在视频中,求职者进入房间,与面试官互相问候,然后坐下。接着,这些短片被展示给另一组人,在此之前他们对求职者或面试一无所知。这组人被要求仅根据20秒的视频片段,按照同样的标准对求职者进行评分。他们的评分与上一组受过训练的面试官竟然极其相似,尽管他们没有听到任何求职者在问答环节给出的回答。
心理学家们由此得出了一个令人震惊的结论:“人事主管对求职者技能、知识和能力的评估可能早在双方互致问候时就已经确定了。” 在招聘面试过程中发生的一切几乎不会改变面试官的第一印象。
这并不能证明第一印象就是错误的。然而,人们想必也很难相信基于问候环节的评估会有多么准确。针对“薄切片”的研究确实表明,某些广受欢迎的问答实际上并不会给面试带来更大的价值。
如同所有人一样,面试官往往相信自己能很好地判断人性。他们很可能夸大了自己的洞察力和他人的可预见性。面试官通常期望以近乎100%的准确率预测求职者的工作表现。可以说,这一类的信条在一流的公司里更加深入人心,因为被抬高的自信心在这些公司里就像是人们呼吸的空气的一部分。成功的商界人士通常认为自己在每个领域都是专家,招聘当然也不例外。有证据表明,招聘在很大程度上受随机因素影响。没有一种已知的面试技巧能够消除这种不确定性。
有没有一种方法能预测工作表现呢?答案是有的,但不是雇主或求职者特别想听到的那个答案。约翰·E.亨特(John E. Hunter)和隆达·F.亨特(Ronda F. Hunter)在1984年写道:“这些年来所有的大样本研究都表明,纸上测试是衡量能力的极好方法,其他类型的测试则通常更昂贵,也不那么有效。” 他们谈论的其实是认知测试和人格测试,现在它们更多地通过网络来实现。
这些测试并不完美,亨特们很清楚。他们排斥那些过分偏离这类测试的创造者的文化影响力的测试。认知测试和人格测试在测量它们要实现的目标时相对可靠,而且它们所衡量的内容与工作表现有相关性。
一方面,这两种测试需要收集大量的数据。同样的测试给到每个求职者,而且评分是客观的。这就消除了很多干扰。另一方面,面试官可能会问每个求职者不同的问题。他可能在潜意识里试图确认第一印象,向喜欢的求职者抛出简单的问题,而向其他人抛出更难的问题。于是,这种即时判断就变成了一个自验的预言。
在2008年的一篇调查文章中,鲍灵格林州立大学(Bowling Green State University)的斯科特·海豪斯(Scott Highhouse)比较了在员工评估方面的认知和现实情况。调查显示,人们相信传统且非结构化的面试比测试更能够预测员工的工作表现,然而经验现实的结论却恰恰与之相反(如图1-1所示)。
图1-1 关于员工评估技术的认知与现实
资料来源:Highhouse 2008。
当一份工作需要某种特定的技能时,对该技能的能力倾向测试是一个很好的预测指标。一般认知能力测试的表现也不错。即使对于销售这种以人为核心,而不是以智力为导向的职业,上述结论也是成立的。优秀的销售人员往往在认知测试中得分更高。研究发现,人格测试同样具有预测工作表现的能力。它们所提供的信息通常不如能力倾向测试或认知测试,但比面试更有效。
海豪斯写道:“在预测人类行为方面,分析优于直觉,这是行为科学中最成熟的发现之一。” 但是,我们要抵制那种仅仅靠测试就足以衡量我们自己或他人的想法。人类的洞察力当然是不可或缺的。而且,正如海豪斯所强调的,“依靠专业判断比依靠测试分数或公式有更高的社会接受度” 。
面试背后的科学
在一个令人印象特别深刻的实验中,海豪斯和他的同事菲利普·利文斯(Filip Lievens)、威尔弗里德·德·科尔特(Wilfried De Corte)要求两组零售商店经理做出模拟的招聘决定。其中一组被告知求职者已经参加了智力测试,并将在面试中接受性格评估。另一组得到的信息恰恰相反:求职者接受了性格测试,而经理们要在面试中评估他们的智力水平。然后,两组经理要根据这些模拟求职者的性格和智力得分对他们进行评分。两组经理的决定都表明,他们更信任面试评估,而不是测试分数。而在接受过面试评估的前提下,人们往往认为智力比性格更重要。
如果问一位心理学家如何改进工作面试的效果,你可能会听到他说出“结构化面试”(structured interview)这个名词。在这种面试模式下,每位求职者会接受同一组提问,跑题的谈话则被尽可能地避免。面试官根据求职者的答案为其打分。因为面试官的记忆可能是不可靠的,并且倾向于他喜欢的求职者。
研究表明,结构化面试比通常那种随意发挥的面试更具预测性。 由于这类调查非常有说服力,一些雇主因此采用了结构化面试。但结构化面试最多只能得到有限的支持。按照列表回答问题,没有穿插性的对话,这种面试模式让面试者觉得过分僵化。而且,如果一家受欢迎的公司总是使用相同的问题列表,那么整套测试会很快在网上曝光,成为廉价的参考。正是由于这些原因,知名公司经常会打乱它们的面试问题的顺序,而且总是采用非结构化的面试。
面试比客观测试更有效的错误观念长期以来影响着公共政策。美国教育测验和公共政策委员会在1990年关于学校和职场测试的建议中提出,“测试分数是不完美的衡量标准,不应该被单独用于针对个人的重要决定”。该委员会在科技行业具有公信力,由苹果公司负责教育的副总裁伯纳德·吉福德(Bernard Gifford)担任主席。吉福德说:“我们只是相信,在任何情况下,一个人都不应该仅仅因为测试分数而被雇主或大学拒绝。”
除了研究这类现象的心理学家,谁会不同意这样的观点呢?“这些观点听起来很合理,”海豪斯写道,“但它们代表着一类有根本缺陷的假设。没有人质疑测试分数是不完美的衡量标准,然而,该委员会暗示,将测试分数与其他指标结合起来就可以纠正这些缺陷,实际上它们只会被进一步强化。”
在这方面,一项造成更重大影响的政策是美国最高法院2003年依据格拉茨诉博林格案建立的平权行动。涉案的密歇根大学一度在录取时采用计分制,来自弱势群体的求职者可额外获得20分。相比之下,当时美国SAT考试每一项的满分是12分,而最高总分为150分。经审判,美国最高法院以6:3的投票结果裁定该录取制度违宪。不过,首席大法官威廉·伦奎斯特(William Rehnquist)认为,种族身份可以成为大学录取资格的合理考量因素,在此案中最高法院持异议的是不合理的计分制度。就面试而言,对求职者的评估要以真实的个体为基础,而不是交给一个无情的公式。
2019年,正在参与总统竞选的拜登发誓要禁止公立学校使用标准化测试。 [1] 事实证明,这是一个很好的政治主张。几乎没有人喜欢标准化测试,而且此类测试在社会经济方面的偏见一向是众所周知的。但是,他的错误在于认为任何替代方案,比如面试,一定比标准化测试更好。率先推动标准化测试乃至平权行动的正是若干年前美国政府中的当权者的偏见。
大多数招聘研究都试图帮助雇主预测未来的工作表现。这种有关招聘面试的认识其实是狭隘的。一场面试还涉及其他利益相关方,尤其是求职者和招聘公司的在职员工。
面试官通常是求职者被雇用后与其一起工作的员工。求职者的最终入选可能不仅取决于他/她的资历,还取决于新同事对选拔过程的看法。求职者是由捉摸不定的人力资源部门强加过来的,还是现有的员工也有一定的决定权?在面试中考虑这一类因素,不仅是为了找到“最合格的”候选人,也是为了让现有员工相信,他们的声音已经被听到了。
任何接受新工作的人都是在进行一场赌博。没有人想在没有进行审慎调查的情况下就做出改变人生的决定。这类调查可能包括会见可能共事的同事、了解工作环境等。尽管面试有很多缺点,但正如心理学家普里克特、加达-简恩和伯尼尔所承认的那样,面试是“在潜在员工和公司之间建立融洽关系的有效手段” 。正因为这个原因,如果没有别的变化,面试将一直存在下去。
[1] Yahoo! News , December 16, 2019.