前言

我们生活在一个任何人都无法摆脱数据的大数据时代。数据越多，人们做出的分析就越多——呈现指数增长；人们分析得越多，制造出的烟幕弹也就越多。因此，保持清醒的头脑就变得非常重要。

如果你在美国西部航空公司负责市场，那么，随着1990年航空业发展速度的开始放缓，你面临着强大的阻力。当时，由于受到“沙漠风暴行动” （Operation Desert Storm）的影响，商务旅行的人数锐减，整个航空业也正在走下坡路。此时经济陷入萧条，石油价格大幅上涨。而不久前，你刚刚扩大了公司规模，可在目前的形势下，公司过去的成绩反而成了套在你脖子上的一条锁链。对美国西部这家由业内元老艾德·博韦（Ed Beauvais）于1983年创建并迅速崛起的航空公司来说，1990年的确是具有标志性的一年。在这一年里，美国西部航空公司跨过了年收入10亿美元的大关。与此同时，它成为菲尼克斯太阳队（Phoenix Suns）的专用航空公司。当美国交通部确认美国西部航空公司是一家“主干线航空公司”时，艾德·博韦的“凤凰项目”（Phoenix Project）已经决定开始实施了。

竞争对手接连倒闭。美国东方航空公司、中途岛航空公司（Midway）、泛美航空公司（PanAm）和环球航空公司（TWA）都是最早的受害者。美国西部航空公司立即缩减开支，停止其他航线，只开通美国西海岸这条核心航线，同时将票价调低50%，并筹集了1.25亿美元，才保住了一线生机。但由于其他航空公司也在降低价格，用不了多久价格战就会蔓延到其大本营——菲尼克斯的市场。于是，你正在苦思冥想，希望找到新的角度来说服旅客搭乘自己公司的客机。这时数据分析人员出现了，并且手里拿着一些对“航班准点表现”的明晰分析报告。自1987年起，美国交通部就要求航空公司上报每个月的晚点记录。在最近的报告中，美国西部航空公司是表现最好的一家，其晚点率是最低的，晚点率为11%。而规模与之相近的竞争对手，同时也是主飞西海岸航线的阿拉斯加航空公司，它的晚点率却是13%（请参看表P—1）。

表P—1　阿拉斯加航空和美国西部航空晚点率的对比

此时，一段可用来做电视广告的故事情节可能会从你的脑袋中冒了出来：

一个穿着昂贵西装的男人，走出接泊巴士，来到贴着“美国西部航空公司”标示的路边，接着他像坐在魔法扫帚上一样被送往目的地。此刻，机场的安检线外聚集着因等待而争吵的旅客。与此同时，乘坐你公司飞机的那位乘客，正在跟他的客户握手，拿着一份签好的合同，指着胸前的标牌开心地笑着。

但是情况急转直下，在人们根本没法作出反应的情况下，1991年的夏天，美国西部航空公司宣布破产。三年之后，这家公司通过重组东山再起。

就由他去吧，因为你们刚刚逃过一劫。你若是要求分析师做更深入的分析，将会收获一份不怎么愉快的惊喜。在图P—1中，美国西海岸的五个机场中，阿拉斯加航空公司每个机场的晚点率都低于美国西部航空公司。

图P—1　阿拉斯加航空公司每个机场的晚点数据

看出问题了吗？虽然美国西部航空公司的平均表现打败了阿拉斯加航空公司，不过，更精细的数据显示：在西海岸的五个机场，阿拉斯加航空公司在每个机场的晚点率都要比美国西部航空公司低一些。没错，再看一下数字。美国西部航空公司的航班在旧金山、圣迭戈、西雅图，甚至在菲尼克斯总部，航班晚点率都要高于阿拉斯加航空公司。这是分析师算错了吗？你再检查一遍，结果肯定没错。

稍后我将用几页内容讲讲数字背后的故事。现在，请先记住我的话，数据确实支持下面的两条结论：

1.平均来看，美国西部航空公司的正点到达的表现要胜过阿拉斯加航空公司；

2.美国西部航空公司在每个机场的正点到达的表现要逊于阿拉斯加航空公司。

当前，情况是有些不寻常，但也还没到不可理解的地步。一部分数据所反映出来的问题，有时跟同一个数据集的另一部分数据所反映出的问题并不一致。

要是你准备将这本书付之一炬，并起誓说这辈子再也不跟爱撒谎的统计学家说话，我不会怪你。不过，在你真的这样做之前，你得认识到，我们生活在一个任何人都无法摆脱数据的大数据时代。数据越多，人们做出的分析就越多——呈现指数增长；人们分析得越多，制造出的烟幕弹也就越多。因此，保持清醒的头脑就变得非常重要。

大数据是高科技时代的流行语，它大约出现在2010年。这个行业喜欢将两个词组织起来表达一个概念，就跟史蒂文·西格尔（Steven Seagal）喜欢用两个词为他的电影命名一样。大数据是“宽带”、“无线”、“社交媒体”或“网站”这类新概念的后裔。它表示海量的数据，仅此而已。

隶属于被誉为“传奇”的麦肯锡管理咨询公司的麦肯锡全球研究院谈起“大数据”时说道：“这个概念指的是那些规模巨大到通常的数据处理软件都无法捕捉、存储、管理和分析的数据集。”根据2011年其发表的第一份“大数据”报告，这些研究者所认为的“大”是指每家企业所拥有的数据达到几十个乃至上千太字节（Terabyte）。

NUMBERSENSE

大数据是高科技时代的流行语，它大约出现在2010年。大数据是“宽带”、“无线”、“社交媒体”或“网站”这类新概念的后裔。它表示海量的数据，仅此而已。

我们对“大数据”的理解要比工业标准更全面。我们之所以关心这个问题，不是因为数据越来越多，而是因为对数据的分析越来越多了。我们不得不投入更多的人手以便能更多、更快地分析数据。真正驱动我们这样做的不是数据的数量而是数据的价值。如果我们想深入研究失业、通货膨胀或者其他经济指标，我们可以从美国劳工统计局（the Bureau of Labor Statistics）的网站上下载大量的数据集。如果某位纽约居民对某饭店的“B”健康等级感兴趣，他就可以在纽约市的健康与心理卫生部（Department of Health and Mental Hygiene）的在线数据库中，查阅违规饭店名单。几年前，当丰田汽车被接连曝出存在突然加速的隐患时，我们了解到美国国家公路交通安全管理局（National Highway Traffic Safety Administration）设立了一个开放资源中心，用来存储关于驾驶员安全方面的投诉。自1990年代初，任何人都可以从雅虎财经、亿创理财（E*Trade）等网站上，下载到股票、共同基金以及其他金融产品的运作情况。有时，甚至连公司也会参与其中，使得一些专有的数据公开化。2006年，美国最大的在线DVD租赁商奈飞公司（Netfiix）统计并发布了1亿部电影的分类等级，并征募科学家来改进预测算法。玩家们通过研究统计数字来获得竞争优势，从而将“梦幻体育” （Fantasy Sports）这个游戏推到了一个新的高度。那些过去印刷在纸版书的数据，如今以电子表格的形式在互联网上迅速传播。数据是免费的，又很容易获得，这必然会产生更多的数据分析。

NUMBERSENSE

我们对“大数据”的理解要比工业标准更全面。我们之所以关心这个问题，不是因为数据越来越多，而是因为对数据的分析越来越多了。数据是免费的，又很容易获得，这必然会产生更多的数据分析。

比尔·盖茨是美国企业成功故事的典型代表。这个绝顶聪明的孩子，大学中途退学，创办自己的软件公司。而且他们公司开发的软件，最终用在了世界90%的电脑上，比尔也因此赚到了数十亿美元的财富。后来，他退出江湖，将大部分财富捐献给慈善事业。比尔以自己和妻子的名义成立了“比尔&梅琳达·盖茨基金会”（Bill&Melinda Gates Foundation）。而且我们很高兴地看到该基金会在许多领域进行了大胆投资。它涉足的领域包括在发展中国家进行疟疾预防，在美国进行中学改革，以及对艾滋病（HIV/AIDS）的研究。盖茨基金会因依靠数据来做出明智的决定，从而赢得了良好的声誉。

但这并不意味着他们不会犯错。盖茨在千禧年开始之际，大力支持小型学校运动，他在全美范围内选出了一些学校，并往这些学校投入了上亿美元。证据A是当时的一项统计发现：在全美表现最好的学校中，小型学校所占的比例不均衡。例如，在宾夕法尼亚州，按照五年级的阅读成绩评出的前50所学校中，12%是小型学校。要是学生的成绩跟学校的规模无关，那么规模大的学校在这50所名校中所占的比例应该是小型学校的四倍。因此，学校规模被认为是影响教学质量的重要因素——每个年级最多不能超过100名学生。而盖茨基金会设计的一套改造方案，就是将大型学校拆分成更小、更高效的小型学校。

举例来说，2003年新学年伊始，在华盛顿的芒特莱克泰勒斯高中（Mountlake Terrace High School）读书的1800名学生发现，自己的学校被分成了五所小型学校，学校的名字分别叫做“发现学校”、“改革学校”、“复兴学校”等。不过，校址没有改变，还是在以前的大楼里。盖茨基金会教育处执行主任汤姆·范德·阿尔克（Tom Vander Ark）解释说：“大多数穷人家的孩子，不得不进规模大的学校念书，在那里没人认识他们，他们被甩进了一条难以出头的死路……小型学校只不过营造了一个（比大型学校）更好的成长环境。在那里，比较容易形成积极的氛围，产生较高的期望值，也更容易优化课程设置，改进教学质量。”

十年以后，盖茨基金会却发生了彻底的转变，它不再将学校的规模视为解决学生成绩问题的唯一方法，而开始致力于设计富有新意的课程以及提升教学质量。盖茨基金会对学校重组前后的效果进行了细致的调查研究，结果发现，重组后的学校平均成绩没有变得更好，相反，在某些个例中变得更差了。

统计学家霍华德·魏讷（Howard Wainer）在美国教育考试服务中心（Educational Testing Services）度过了最好的职业生涯。魏讷曾抱怨道：“这数百万美元的错误，本来是可以避免的。”在上面提到的对宾夕法尼亚州的学校进行的同一分析中，魏讷指出，虽然小型学校在前50所学校中占了12%的份额，但同时要看到，在后50所学校中，有18%是小型学校。简单来说，小型学校在这个分布的两端所占的比例都偏高。不管强调哪一部分数据，分析师们都会得出完全相反的结论。在对飞机晚点的研究中，我们见过类似的情况。问题的关键不在于多少数据被分析，而是被如何分析。

NUMBERSENSE

盖茨基金会的故事证明了另外一点：数据分析是一件棘手的事，无论是权威专家还是经验丰富的行家，都不能担保不出错。

盖茨基金会的故事证明了另外一点：数据分析是一件棘手的事，无论是权威专家还是经验丰富的行家，都不能担保不出错。不管一个人的脑袋瓜多么灵光，总会有一定的犯错范围。这是因为，没有人能够掌握所有信息。“那是在顶尖期刊上发表的”、“别瞎怀疑了，登在这本期刊上的文章难道会有错？！”这样的话经常拿来当做堵住别人嘴巴的借口。生活在大数据时代，只有傻瓜才会采取这种态度。你听说过很多研究，试图在某种疾病与某种基因之间建立联系，比如，帕金森症和高血压。可是，你知道吗？经过同行评审、并得到同行认可的遗传学关联性研究成果，只有30%能被后续的研究证实，其余的都是假阳性结果（false-positive result）。那些声称是原创性的研究成果，还没来得及出版勘误表，就已经被推翻了。不过，话又说回来，我还是希望专家能发表一些质量稍高的分析报告。

当初关于小型学校的分析工作，要是交给魏讷来做，想必他会从宏观的角度审视数据，并得出“学校规模只是一枚烟幕弹罢了，跟学生的学业成绩无关”这样的结论。尽管“学校规模变小，学生将得到更多的关注”的这种假设，主观上具有很强的吸引力，但证据不支持理论假设。即便学校规模跟学生成绩之间存在相关性，也仍然不足以得出结论说学校规模是影响学生成绩的原因之一或唯一的原因[对数据因果分析的质疑，请参看拙著《数据统治世界》（Numbers Rule Your World）第二章内容]。

大数据在因果关系这个问题上，实际上没什么好讲的。不过，存在一种普遍的误解，以为海量的数据流能够将隐藏着的“因果关系”冲出地面。请想一下点击流吧，网络营销人员借助点击追踪网络用户，来以此证明网络营销是成功的。顾客点击了一个网页横幅广告或者搜索广告，然后下了订单，这不就足以证明网络营销成功了吗？还需要什么更有力的证据吗？现实情况远非如此简单明了。比方说，我在网上点了一个三星盖世（Galaxy）的横幅广告，随后将这款手机放进了购物车。一个星期后，我观看了他们抨击苹果的广告，觉得很过瘾，于是，我回到三星的网店完成了这笔交易。分析人员在仔细分析网络日志时，不但会漏掉促使我行动的真实原因，而且会犯假阳性错误，将横幅广告跟此次购买行为捆绑在了一起。因为网络营销人员能看到的只有这些。这些小问题在网络分析员的生活中稀松平常。下面是其他一些令人担忧的情况：

NUMBERSENSE

大数据在因果关系这个问题上，实际上没什么好讲的。不过，存在一种普遍的误解，以为海量的数据流能够将隐藏着的“因果关系”冲出地面。

●经核实的交易次数跟记录下来的点击数永远不相等；

●有些交易一次点击记录也查不到，而有些交易却对应着多次点击；

●在我们所认为的可能引发购买行为的点击按下去之前，交易就已经完成了；

●据推测，有些客户在电子邮件内点了一下链接，但是并没有打开它；

●同一名客户可能在5分钟之内点了同一条广告上百次，这种可能也是存在的。

网络日志是个混乱复杂的世界。要是指派两位销售商分析同一家网站的流量，得出的统计数据肯定会大相径庭，二者的差距可能高达20%或者30%。

NUMBERSENSE

大数据不仅意味着有更多好的分析，也意味着会有更多坏的分析。在这个充满数据的世界中，消费者得有一副火眼金睛才行啊！

大数据不仅意味着有更多好的分析，也意味着会有更多坏的分析。要知道，即便是专家和技术大牛也有掉链子的时候。如果一些不好的数据被心怀叵测的可疑人员添油加醋地利用，事情会变得更糟糕；不过，即便是动机纯洁的分析人员稍有不慎也会上当受骗。在这个充满数据的世界中，消费者得有一副火眼金睛才行啊！

数据赋予理论合法性，而每一个分析则必须立足于理论之上。

数据挽救不了坏理论。更糟糕的是，坏理论和坏数据往往会形成一种危险的组合。美国共和党的民意调查员，在2012年总统大选时，玩火不成反被火烧。事情来得太快了，美国东海岸时间11点30分，福克斯新闻频道（Fox News）获悉奥巴马在俄亥俄州胜出，这就意味着奥巴马连任成功。美国杰出的政治顾问卡尔·罗夫（Karl Rove），此时正坐在福克斯新闻频道的直播间里，听到这个消息后显得十分惊慌失措，彻底丢了一回脸。罗夫坚持说，俄亥俄州的选票并不能决定最终的选举结果。他气急败坏地逼着主持人梅根·凯利（Megyn Kelly）到后台核对选票，即便她得知统计人员对这个存在分歧的判决有“99.5%的信心”。

罗夫跟很多著名的共和党时事评论员，如乔治·威尔（George Will）、纽特·金里奇（Newt Gingrin）、迪克·莫里斯（Dick Morris）、里克·佩里（Rick Perry）以及迈克尔·巴罗内（Michael Barone）一样，都预测他们的候选人米特·罗姆尼（Mitt Romney）赢得大选易如反掌。他们有民调数据来支持自己的判断。不过，要是你读一下内特·西尔弗（Nate Silver）在《纽约时报》“民调大师”（guru of polls）上的博客538（FiveThirtyEight），你也许会好奇共和党的大佬们到底在放什么烟幕弹。例如，2012年9月的民意调查显示，现任总统奥巴马的支持率领先其对手4%（参见表P—2）。

表P—2　2012年美国总统大选的全国性民调结果（包括2012年9月的民调结果）

（来源：RealClearPolitics.com和UnskewedPolls.com）

大选失败后，罗姆尼阵营的第一反应就是震惊。他们曾经用明显不同的一组数据集预测出大选的胜利。他们所用的数据集更像表P—3中的数据，而不是表P—2中的数据。

表P—3　二次加权后的2012年美国总统大选的全国民调结果：2012年9月

（来源：UnskewedPolls.com和RealClearPolitics.com）

这第二组数据集是迪恩·钱伯斯（Dean Chambers）得出的，他建立了一家名为UnskewedPolls.com的网站跟内特·西尔弗唱对台戏。在11月6日大选即将开始前，这家网站成了共和党时事评论员的宠儿。钱伯斯统计的数据显示，在每次民调中罗姆尼的支持率均大大超过奥巴马，平均领先7个百分点。将罗姆尼与奥巴马的差距，从落后4个百分点的劣势扳回到领先7个百分点的绝对优势，这要归功于某个理论和一小撮坏数据。

钱伯斯认为，2012年大选时共和党选民将会情绪失控，这反映出他们对经济复苏缓慢及就业市场惨淡的不满（该话题将在第6章详谈）。民调公司通常只会报告拟投票选民（likely voters）的结果，这意味着他们所用的数据包含着一个预测模型，用来预测谁最可能参加投票。钱伯斯断言，“拟投票者”模型对共和党人存在偏见，因为该模型没有考虑选民在情绪激动时造成的理论上的波动。

于是，他着手对民调数据进行“纠偏”。事情的关键是找到一种新的方法来估计“拟投票者”的党籍。他将目光转向了拉斯穆森报告（Rasmussen Reports），这是一家表现不佳的民意调查公司。拉斯穆森民意调查公司在他们的自动拨号机上装载了预先录制好的题目，试图通过这些题目来收集选民的党派身份：

“如果您是共和党党员，请按‘1’；

如果您是民主党党员，请按‘2’；

如果你属于其他政党，请按‘3’；

如果您是无党派人士，请按‘4’；

如果您不确定，请按‘5’。”

坏数据就是从这里混进来了。钱伯斯对其他民调结果进行了二次加权，他声称这些调查结果少算了共和党选民。在对这些民调结果进行调整时，他也假定在其他民调公司的答卷人中，各党派的比例跟拉斯穆森的调查结果是一致的。经过这样一番调整，每项调查都预示罗姆尼将会胜出，后来的选举结果证明这不过是一厢情愿罢了。最后的票站调查（exit polls）评估出38%的投票者是民主党人，比自认的共和党投票者多出6个百分点，从而彻底击溃了钱伯斯的理论假设。顺便说一句，民调公司根本就没有必要猜测“拟投票者”属于哪个党派，他们只须将问题明确地提出来，被调查对象就会自己做出选择。

在分析数据的时候，不可避免地要进行理论假设。任何分析都是一半数据，一半理论。数据越丰富，所能支持的理论就越多，而有些数据与理论也会互相矛盾，就像我们之前所注意到的一样。然而，数据再丰富也无法挽救糟糕的理论，或者说挽救不了糟糕的分析。这个世界从来就不缺理论家。在大数据时代，证据的杠杆被调得很低，这使得明辨是非变得越发困难。

那些为大数据唱赞歌的人，理所当然地认为数据越多产生的效用越好。我们有必要人云亦云吗？

NUMBERSENSE

那些为大数据唱赞歌的人，理所当然地认为数据越多产生的效用越好。我们有必要人云亦云吗？

分析数据的人越多，分析的速度就越快，产生的理论和观点就越多，就越具复杂性，相互之间的分歧也就越多。因此，结论也就越不明晰，越不一致，越缺乏自信。

美国西部航空公司的营销人员，引用五个机场的综合统计数字宣称本公司的准点率比阿拉斯加航空公司高。而阿拉斯加航空公司也可以反驳说，比较一下就不难看出，在这五个机场中，自己公司的航班时效性更强。当两个互相冲突的结果摆在桌面上时，如果不去验证算法，不请人仲裁，很难立刻下结论。我们从航班晚点数据得到一个重要认识：影响航班准点率的关键因素是客机所到达的机场，而非客机隶属于哪家航空公司。尤其是，飞到菲尼克斯的航班晚点的概率要比那些飞往西雅图的航班小得多，这是由气候的差异造成的。美国西部航空公司的总部在菲尼克斯，而阿拉斯加航空公司的枢纽在西雅图。因此，阿拉斯加航空公司的平均晚点率，被一个表现差的机场过度加权。而对美国西部航空公司来说，情况正好相反。从上面的分析可以看出，所到达的机场这个因子隐藏了客机因子。这样就解释了所谓的“辛普森悖论” （Simpson’s Paradox）（如图P—2）。

图P—2　基于航班晚点数据对辛普森悖论的解释

对航空公司的分析只是用四个对象：客机，到达机场，客机数量和晚点频率。还有很多变量是可以利用的，比如：

●天气条件；

●飞行员的国籍、年龄和性别；

●客机的类型、构造和尺寸；

●飞行距离；

●出发机场；

●载客率。

可行的分析随着变量数目的增加呈指数增长。同样，犯错跟出现悖论的机会也是同步增长的。

不可避免的是，数据越多，我们花在争论、验证、调和以及重复上的时间就越多。这些活动会产生更多的疑问跟困惑。于是就会产生一个很切实的危险，那就是大数据非但没有将我们引向进步，反而让我们倒退了。当糟糕理论通过搜集糟糕证据，驱逐好理论来获得发展，那么科学就面临着被带到“黑暗时代”的威胁，这无疑再次验证了“劣币驱逐良币”的论点。

大数据是真实的，而其影响更是广泛的。至少，我们每个人都是数据分析的消费者。因此，我们必须学会成为一个聪明的消费者。我们需要具备的是一种数字直觉。

数字直觉是我在招聘数据分析员时最为看重的一种品质。它能将真正的天才从“还不错”中区别开来。我希望在应聘者身上发现三样东西：一个是数字直觉，其他两样分别是技术能力跟商业思维。有些人可能在编程方面无人能敌，但却没有一点数字直觉；有些人可能是个讲故事的高手，能将一个个的情节串联起来，但是却没有任何数字直觉。数字直觉是第三维度。

NUMBERSENSE

不可避免的是，数据越多，我们花在争论、验证、调和以及重复上的时间就越多。这些活动会产生更多的疑问跟困惑。于是就会产生一个很切实的危险，那就是大数据非但没有将我们引向进步，反而让我们倒退了。

数字思维是当看到坏的数据或坏的分析时，你脑袋里产生的嘁嘁喳喳的声音。它是促使你接近真相的一种诉求，一份执着。它是一种智慧，知道何时拐弯，何时向前推进，最重要的是知道何时停止。它是一种意识，知道你从哪里来，将走向何方。它还是一种搜寻线索、辨认圈套的能力。天才试过几圈，就能很快地找到从A到Z的通路。而有些人则困在迷宫里，也许永远也走不出来。

数字直觉是一种与生俱来的直觉，很难在传统的教室环境下教授。虽然有一些普遍原则，但却不是烹饪书，可以照葫芦画瓢（如表P—4）。它无法自动化。教科书中的案例不能移植到真实世界中。虽然讲义资料通过精确地剪裁那些构成元素，提炼出一般概念。但这些概念帮不了分析人员什么忙，只会瞎耽误工夫。培养数字直觉最好的途径是直接练习或者跟从别人学习。

表P—4　航班晚点数据

[来源：戴维·斯·摩尔（David S.Moore）：《统计学基础实践（第五版）》（The Basic Practice of Statistics），第169页]

我写作这本书的目的是引你上路。本书的每一章都是由近期读到的一则新闻触发灵感而写成的。在这些新闻故事中，有人提出了一些观点，并且援引数据来证明自己的观点。我通过提一些尖锐的问题，检查一致性，数理论证，有时候，也会通过获取并分析相关数据，来展示我是如何验证这些观点的。比如，我会质疑高朋（Groupon）的商业模型有意义吗？一种检测肥胖的新方法能解决我们最大的健康危机吗？克莱蒙德麦肯那学院（Claremont McKenna College）在学院排名游戏中小规模作弊了吗？政府公布的通胀跟失业数据值得信任吗？我们如何评价梦幻体育联盟的表现？当商家通过追踪我们的活动来实现个性化营销时，我们会从中受益吗？

即使是专家有时候也会掉进数据的陷阱中。如果我在这本书里面也犯了此类的错误，那么责任完全在我。要是我没有把观点讲得足够清楚，那就意味着这些数据的分析方法不止一种。我鼓励你们形成自己的观点。只有通过这样的练习实践，才能培养出你自己的数字直觉。

欢迎来到大数据时代，不过，要处处留神才是！