20世纪40年代,单独一个词语就拥有足以颠覆世界的力量。每当灾难来临或是坏人威胁要摧毁我们所知的生活时,漫画中的少年比利·巴特森
(Billy Batson)就会大喊一声“沙赞!”,变身为拥有神力和神速的超级英雄。
这种充满魔力的咒语自古就已存在。从“急急如律令”和“唵嘛呢叭咪吽”,到“芝麻开门”和“疾疾,护法现身”,魔术师、巫师和各路英雄都曾用语言召唤过神秘的力量。如同蛊惑人心的咒语一般,通过巧妙使用,某些词语便能拥有改变任何事情或达成任何目的的神力,让听者无力抗拒。
显然,这些咒语只存在于虚构世界,不是吗?事实并不完全如此。
20世纪70年代末,哈佛大学的研究人员在纽约市立大学图书馆找到一些使用复印机的人,请他们帮了个忙。
众所周知,纽约拥有生机勃勃的文化、丰富可口的美食,还是一个多元化人口的大熔炉。但要论友善程度,就有所欠缺了。纽约人以语速快、工作努力和不停奔忙而闻名。因此,想让他们因为帮助陌生人而给自己添麻烦,绝对是件费劲的事。
这群研究人员想要探寻说服力背后的驱动因素。在实验中,研究团队中的一名成员在图书馆的一张桌子旁等着人来复印。当想要复印的人把材料放在机器上时,研究人员便会进行干预,走到这位毫不知情的实验对象身边,打断对方在做的事,要求插队使用机器。
研究人员尝试了不同的方法。有些人会直接提出要求:“不好意思,我有五页纸要复印,能用一下复印机吗?”而另一些人则加上了“因为”这个词:“不好意思,我有五页纸要复印,能用一下复印机吗?因为我要赶时间。”
这两种方法几乎没有什么差别。在两种方法中,研究人员都礼貌地说了声“不好意思”,都要求使用机器,也都指出需要复印五页纸。另外,这两种方法提出的要求也是一样的:想让使用复印机的人不得不停下手中的工作,把材料从复印机上拿下来,然后百无聊赖地干等着,让别人插队。
然而,这两种相差无几的方法却得到了截然不同的效果。加上“因为”这个词,同意研究人员插队的人数飙升了50%。
区区一个词就使说服力飙升50%,这种效果堪称惊人。但公平地说,你的确可以提出,这两种方法的不同不仅在于一个单词。毕竟,加入“因为”这个词的表达中不仅包含了这个单词,还附带了请求的原因(请求者赶时间)。
所以,与其说是“因为”这个词提升了说服力,不如说是请求的理由非常充分。提出请求的人说自己很赶时间,而不知情的实验对象并不赶时间。因此,他们之所以答应,或许只是出于礼貌或助人为乐而已。
但事实并非如此。因为,研究人员还尝试了另一种方法。对于第三组实验对象,研究人员表述的理由不仅不充分,而且毫无根据:“不好意思,我有五页纸要复印,能用一下复印机吗?因为我要复印。”
这一次,提出请求一方的理由没有补充任何新的信息。毕竟,使用复印机的要求已经很清楚地表明了复印的需求。因此,即便加上“因为”这个词,也不该有什么用处。如果给出合理的理由能够提高说服力,那么,表达自己要用机器是为了复印,是不应该起到什么作用的。事实上,这个没有意义的理由甚至可能降低说服力,让对方不愿同意。
然而,实际情况却并非如此。加入毫无意义的理由不但没有削弱说服力,效果反而和真实理由无异,让说服力不减反增。理由本身在某些时候并不是说服他人的驱动因素,在理由之前出现的“因为”两字,才是增加说服力的秘诀所在。
“复印机研究”只是验证魔力词汇威力的一个例子。说“推荐”而不是“喜欢”某种事物,会让人们接受建议的可能性增加32%。在婚恋网站资料中使用宾语形式的“谁”(whom),会让男性成功约到对方的可能性增加31%。在求职信中添加更多的介词,会让获得工作的可能性增加24%。在描述一种产品时,相比于使用缩写的“不是”(isn't),使用正规形式的“不是”(is not),会让顾客多花3美元购买。在财报电话会议中使用的语言能够影响公司的股价,而首席执行官使用的语言也会对投资回报产生影响。
那么,我们是怎么获知以上这些信息的呢?答案来自新的语言科学。机器学习、计算语言学和自然语言处理方面的科技进步,加上从求职信到对话交流等各个领域的数字化,彻底颠覆了我们分析语言的能力,也让我们获得了前所未有的洞见。
对于我来说,使用自动文本分析的契机纯属偶然。2005年左右,我入职沃顿商学院教授岗位刚刚一年,正在研究流行事物疯传的原因。我们想要知道驱使人们选择讨论和分享某些事物的原因,并收集了一个包含数千篇《纽约时报》文章的数据集,其囊括了头版新闻、世界新闻,以及体育和生活方式等内容。其中的许多文章都非常值得一读,但只有少部分跻身《纽约时报》网站上转发最多之列,我们想要一探其中的究竟。
为了得出答案,我们必须要找出某些内容之所以疯传的各种因素。举例来说,《纽约时报》主页上刊登的文章或许会得到更多的关注,因此,我们便衡量了这个因素。同理,某些版块或某些作家可能拥有更多的受众,因此,我们也对这些因素进行了衡量。
我们尤其想要探明,某些特殊的写作方式是否会提高文章被人分享的概率。但要弄清楚这一点,就需要找到一种方法来衡量文章的特征,比如每篇文章引发了多少情感,或者包含了多少有用的信息。研究的第一步,从招募研究助理开始。感兴趣的大学生会发来邮件询问能否参与研究,而这不失为一种让他们贡献力量的简单方法。每个学生都需要读一篇文章,并通过打分来评判文章引发了多少情感。
这种方法非常有效,至少对于刚开始的时候而言。渐渐地,评分的文章便从几篇积累到了几十甚至上百篇。
但是,想要将这种方法应用于数千篇文章之中,就没那么简单了。研究助理阅读一篇文章要花一定的时间,而阅读10篇、100篇、1000篇的文章,便要花10倍、100倍、1000倍的时间。
我们雇请了一小批研究助理,但即便如此,进展还是很慢。此外,随着雇请人数的增加,我们对于结果的一致性越来越不确定。一位研究助理可能会觉得某篇文章很煽情,而另一位则不这么认为,我们担心这些前后不一的答案会影响结论的准确性。
我们需要找一种可以规模化的客观方法,一种可以衡量成千上万篇文章特征的前后一致的方法,同时不至于把我们的研究助理折腾得筋疲力尽。
我开始和一些同事讨论这件事,有人向我推荐了一款名为“语言获得和词汇计数”(Linguistic Inquiry and Word Count)的计算机程序。这款程序非常简单直白,用户只需输入一段文本(如报刊文章等),程序便会通过衡量各个方面打出分数。例如,程序可以计算一篇文章中与情感相关的词汇数量,从而判断这篇文章对于情感的偏重程度。
与研究助理不同的是,这款程序永远不会感到厌倦。此外,这款程序只用同一种方式进行打分,因此评判标准能完全保持一致。
这款“语言获得和词汇计数”程序常被人们简称为“LIWC”,就这样,这款程序便新晋成了我最喜欢的研究工具。