几何学的力量最新章节_乔丹·艾伦伯格著

尝一口就能知道整碗汤的味道

人们常会问我一个问题：“一项针对200人的民意调查如何能可靠地反映出数百万选民的投票偏好呢？”这听上去确实不太可信，就好像你试图通过品尝一勺汤，弄清楚你碗里是什么汤一样。

但事实上，你完全可以做到！因为你有充分的理由认为勺子里的汤是整碗汤的随机样本，你从一碗蛤蜊浓汤里绝不会舀出一勺意大利蔬菜汤。

汤的原理就是民意调查结果有效的原因所在。但是，它并没有告诉你民意调查结果与被调查的城市、州或国家的真实情况有多接近。而这个问题的答案就在从池塘出发的蚊子缓慢而无序的飞行过程中。以我居住的威斯康星州为例，该州的民主党支持者和共和党支持者几乎各占一半。现在，想象一只蚊子按如下方式运动：我随机给一个威斯康星人打电话，询问其政治倾向，如果受访者是民主党支持者，就指示蚊子往东北方向飞；如果受访者决定投票给共和党，就指示蚊子往西南方向飞。这正是罗斯的模型：蚊子朝一个方向或相反方向随机飞行200次。如果接到电话的200人都是民主党支持者，调查结果就会让我们对威斯康星人的投票偏好形成一种完全偏倚的看法。但我们怎么知道这种情况不会碰巧发生呢？当然，这种情况是有可能发生的——蚊子从出生后就一门心思地往东北方向飞，直至死去。不过，这种可能性很小。我们已经看到蚊子出生200天后的平均飞行距离为11千米，这个数据去掉单位后就是我们的民意调查中民主党支持者和共和党支持者的人数之差。所以，如果民意调查的受访者中有106名共和党支持者和94名民主党支持者，这一点儿也不奇怪。但如果出现与政治现实相去甚远的120名共和党支持者和80名民主党支持者的情况，则是另外一回事。这就好像把勺子伸进一碗威斯康星汤里，舀出来的却是密苏里汤一样。如果共和党支持者比民主党支持者多40人，就相当于蚊子飞到了距离出生地40千米的地方，我们已经计算出这种情况的发生概率只有千分之三。

换句话说，这200名民意调查受访者不太可能与所有威斯康星人存在很大的差异，毕竟尝一口就能知道整碗汤的味道。在我们的样本中，共和党支持者的占比为43%～57%的概率是95%左右，这就是为什么类似的民意调查的误差范围是±7%。

但前提是，我们选择民意调查对象时不能带有偏见。罗斯非常清楚，偏见会导致他的蚊子模型失真。在开始计算和画那些圆圈之前，他规定整个区域的景观相同，“就食物供应而言，每个地点对它们（蚊子）都具有同等的吸引力，而且没有任何因素（比如稳定的风或本地的天敌）会把它们驱赶到特定的地方”。

罗斯有充分的理由设定这个前提，如果没有它，情况将会变得一团糟。假设有风，蚊子个头很小，即使是微风也会导致它们飞得摇摇晃晃。例如，向北刮的风会让蚊子往东北方向飞的概率从50%变成53%。这就像民意调查中有一个未被注意到的偏见一样，它导致我调查的每个随机选民都有53%的概率是共和党支持者。原因在于，共和党支持者比民主党支持者更有可能同意回答我的问题，或者更有可能第一时间接听电话，或者更有可能拥有电话。这会大大增加民意调查结果偏离真实选举结果的可能性。在公正的民意调查中，样本中有120名共和党支持者和80名民主党支持者的概率仅为千分之三。而在有利于共和党的偏见影响下，这一概率跃升至2.7%，增加了8倍。

在现实生活中，我们从未见过绝对公正的民意调查。所以，我们应该对民意调查报告的误差范围持谨慎的怀疑态度。如果民意调查经常被轻柔的偏见之风推向一个或另一个方向，现实生活中选举结果超出报告误差范围的频率就会更高。你猜怎么样？事实的确如此。2018年的一篇论文发现，真实的选举结果与民意调查结果之间的偏差通常是允许误差范围的两倍左右，毕竟选举可不是那么风平浪静的事。

我们还可以换一种方式思考风的存在问题，它意味着蚊子每天的运动并不是完全独立的，而是彼此相关的。如果蚊子第一天往东北方向飞，就表明风刮向东北的可能性更大，蚊子第二天还往东北方向飞的可能性也更大。这个问题的影响很小，但正如我们看到的那样，它的效果会叠加。

有一个著名的谬误，即所谓的“平均值定律”。它认为，如果一枚硬币连续抛几次的结果都是正面朝上，那么下一次的结果更有可能是反面朝上，这样才能使结果“平均化”。智者说，事实并非如此，因为抛硬币是独立事件，不管之前的结果如何，下一次的结果为正面朝上的概率仍然是50%。

更糟糕的是，除非你百分之百地确定硬币是公平的，否则就会存在“反平均值定律”。如果你抛一枚硬币连续100次都得到正面朝上的结果，你要么会惊叹于自己非同一般的运气，要么会十分理智地想到一种可能性：你抛的那枚硬币两面都是正面。连续得到正面朝上结果的次数越多，之后得到正面朝上结果的期望值就会越高。

这不禁让我们想到了唐纳德·特朗普。随着2016年美国总统大选的临近，几乎所有人都认为希拉里·克林顿具有领先优势。但与此同时，特朗普获胜的概率有多少，仍然存在很大的争议。11月3日，美国新闻杂志《沃克斯》（Vox）报道称：

就在上周，纳特·西尔弗的民意调查分析网站538预测，希拉里·克林顿拥有85%的压倒性优势。但截至周四上午，她的胜率已降至66.9%，这表明尽管特朗普处于劣势，但他也有1/3的概率成为下一届美国总统。

自由派人士试图进行自我安慰，他们的依据是：538网站在美国的六大民意调查机构中是一个异类，而其他5个机构均预测特朗普的获胜概率在16%和小于1%之间。

普林斯顿大学的王声宏（Sam Wang）认为特朗普的获胜概率是7%，并对希拉里竞选成功充满信心，甚至承诺如果希拉里输了，他就当众吃掉一只虫子。选举结束一周后，他在CNN（美国有线电视新闻网）的直播节目中吞下了一只蟋蟀。数学家有时也会犯错误，但大都是言出必行的人。

王声宏错在哪里了呢？和罗斯一样，他也假设没有“风”。所有预测者都认为，选举结果取决于几个“摇摆州”，包括佛罗里达州、宾夕法尼亚州、密歇根州、北卡罗来纳州，当然还有威斯康星州。特朗普可能需要获得这几个州的多数选票才能取胜，但在每个州中，希拉里似乎都保持着适度领先的优势。在选举日上午，西尔弗估算特朗普的获胜概率为：

特朗普可能会赢得这5个州的选举人票，但就像蚊子连续5次飞往同一个方向一样，概率看上去非常小。你可能会列出下式来估算这个概率（王声宏或许也是这样做的）：

0.45×0.45×0.23×0.21×0.17

它的结果约为1/600。按照同样的计算方法，特朗普在其中三四个摇摆州获胜的概率也很小。

纳特·西尔弗可不这样认为。他的模型在不同的州之间建立了适度的相关性，其依据是一个不可否认的事实：民意调查机构可能会不知不觉地做出“设计选择”（design choice），使样本倾向其中一个候选人。是的，我们的最佳估计是，特朗普在佛罗里达州、北卡罗来纳州和其他几个摇摆州都处于劣势。但如果他在其中一个州获胜，就证明民意调查中的偏见让希拉里的支持率看起来比实际情况要好，而特朗普在其他州获胜的可能性也有所增加。反平均值定律在其中发挥了作用，它意味着特朗普横扫摇摆州的可能性比你根据独立概率估算出的数值要大得多。这就是为什么西尔弗给特朗普估算了一个正常合理的获胜概率。出于同样的原因，他预测希拉里有大于1/4的概率以两位数的支持率领先优势获胜，而王声宏认为出现这个结果的可能性也很小。

2016年的美国大选结果出人意料，密切关注此次选举的媒体纷纷发出疑问：“2016年之后，我们还能继续相信民意调查吗？”

是的，我们可以继续相信民意调查。与专家对总统职务的抽象评价或辩论者的犀利言辞相比，民意调查仍然是一种测量民意的更优方式。西尔弗的估算结果是竞选双方势均力敌，两位候选人都有可能获胜。他是对的！如果你认为这只是站不住脚的借口，那么请你扪心自问：你假装自己几乎肯定地知道谁会获胜，但其实你和其他所有人都无法准确地预测选举结果，难道这就是更好、更合理的数学分析吗？