第4章
数字的力量

故事能够创建与听众的关联并使人记忆深刻，而数字能够使人信服。借助数字，即便是最不确切的故事也可以给人一种精确的感受，并且，在处理不确定性时，借助数字进行判断会让你感到更舒服。在本章中，我首先会追本溯源，简单回顾从古代文明中的数字起源到今天的定量模型这段历史。然后，我会着眼于数字对我们的影响力、我们使用数字的原因，以及过去30年中的科技发展是如何使数据的收集、分析和传播变得更容易的。最后，我会分析以下两个问题：过于信任数字的风险，以及数字为什么会让你误以为自己是客观真实的、掌控着事情的发展，而事实上却并非如此的。

数字的历史

最初的数字系统可以追溯到史前时代，也就是绘制在洞穴壁画上的计数系统。所有的古代文明都有其各自的数字系统，其中玛雅的数字系统是以60作为基数的。一般认为，古埃及人发明了10进制的数字系统，这成为当今数学运算的基础。而我们如今使用的数字，虽然被称为阿拉伯数字，却是由古印度人首先使用的。在传播的过程中，阿拉伯人发现了数字0的魔力，而中国人认识到了负数的存在。

虽然有了这些进步，但在人类历史中的大部分时间里，数字的使用仍只限于小部分人，这是因为获得数据并对其进行保存是非常困难的，而且计算过程也很耗费时间，分析工具也十分有限。到了中世纪，保险业的诞生以及统计理论方面的进步使数字在商业领域得到了更广泛的应用。而19世纪金融市场的发展则极大地促进了数字的使用。同一时期，数字处理发展为一种职业，保险精算师、会计师和股票经纪人等职业纷纷出现。

20世纪中期计算机的发明是数字历史上的又一变革性事件。随着机器计算取代人类劳动，数字运算的规模也得到了扩大。在个人计算机于20世纪70年代问世之前，有机会接触到体积庞大且非常昂贵的计算机系统的个体或组织（一般是大公司、大学和研究单位）明显比我们其余的人更有优势。个人计算机使更多的商业人士、投资者和新闻记者能够做到上一代只有极少数人可以做到的事情，同时也使数据访问和进行数据分析所需要的工具得到了普及。

数字的力量

随着机器的力量以越来越快的速度不断增长，人们在决策过程中越来越依赖于数字的趋势变得十分明显。公司尝试着以“大数据”分析作为指导来确定生产何种产品、将产品销售给哪些客户以及以何种价格来销售产品。投资者也越来越倾向于以数字为导向，其中一部分投资者（宽客）甚至完全依赖数据和用于分析数据的精密工具做决策。在此部分中，我想重点讲述究竟是什么让数字如此吸引人。

数字具有精确性

在本书开头，我引用了《点球成金》一书，这是一本关于职业棒球队奥克兰运动家的经理比利·比恩的书。在美国，棒球是一项历史悠久的运动，对于这样一个可以产生大量与球员相关的统计数据的体育产业，它的发展在很长一段时间里却更依赖于故事讲述：球探讲述的关于年轻棒球投手如何有潜力的故事、球队经理对球员讲述的关于如何在比赛中根据具体情况做出正确反应的故事，以及球员讲述的关于如何击球或投球的故事。基于对数字的信任，比利·比恩利用从比赛中获取的海量统计数据来选择合适的队员以及高胜率的比赛方式，从而彻底改革了这项运动。仅凭着极少的经费就成功创建了一支世界级球队这一事实，不仅使他成为管理界的一颗明星，也令他成为棒球界人人争相效仿的对象。迈克尔·刘易斯从许多方面讲述了故事和数字之间的张力，并将当时的棒球界对比恩的尝试做出的反应描述为“一种不科学的文化对科学的方法做出的反应，或未能做出反应的例子”，从而论证了数字的力量。

人们深信数字是科学的，且比故事更精确，基于这种信念，比利·比恩给棒球界带来的这一变革产生了深刻而广泛的影响。由比恩才华横溢的导师、棒球统计学家比尔·詹姆斯命名的棒球记录统计分析方法如今已在其他运动中得到了广泛应用，管理者和运动员们都纷纷借鉴了此分析方法。纳特·西尔弗是一位接受过专业培训的统计学家，他通过用数字质疑传统政治理论专家所讲述的、他称之为“肤浅空洞的故事”而颠覆了传统政论领域。当然，被数据革命颠覆得最为彻底的领域便是商业领域，一部分原因是该领域有相当多的数据可用于分析，另一部分原因则是恰当地运用这些数据可以带来巨大的收益。

我在第2章曾提到社交媒体为故事讲述创建了一个极为广阔的平台，但有趣的是，社交媒体也反映出了我们自己对数字的关注程度，比如，你会用点赞数来衡量脸书帖子内容的受欢迎程度，或者用转发量来评估Twitter推文的影响程度。并且，有证据表明，出于吸引更多人的注意这一目的，人们会有意调整其在社交媒体上发布的内容。

数字是客观的

在教育生涯中的某一时刻，我们学会了所谓的科学方法（但也常常会忘记）。至少在高中课堂上，教师对此是这样描述的：科学方法的本质是先提出假设，再进行实验并收集数据，然后根据这些数据接受或推翻假设。此描述隐含的信息是，真正的科学家是没有偏见的，而且数据会提供问题的答案。

在第2章探究故事讲述的危险性时，我讨论过偏差是如何在无形之中潜入故事的，以及对于听众来说想要在故事讲述者创造的环境中抵制偏差有多困难。数字对人们有如此之大的吸引力的一个原因是，不管合理与否，人们认为数字是公正的，不带有主观色彩。尽管这种推测并不符合事实（我会在下一节中讲到这一点），但不可否认，听众虽然很难和主要借助数字而非故事来阐述案例的人产生共鸣，但他们的确更有可能认为这个人更客观。

数字意味着控制力

在童话故事书《小王子》中，小王子在参观一颗小行星时遇到了一个数星星的人，那个人固执地认为如果他能够数完所有的星星，他就能拥有这些星星。这则童话故事引起了许多人的共鸣，因为人们似乎都有这样一种感觉，在对一样东西进行了测量或者将它与数字进行了关联之后，他们就能更好地控制它。因此，尽管一个体温计只能让你知道自己在发烧，一台血压监测仪仅能为你提供你的血压读数，但两者似乎都让你对自己的身体健康产生了一种控制感。

而在商业领域，数字的力量已经被精练为一句广为人知的口号：“你无法管理你不能衡量的东西。”那些制造、销售以及投资测量工具的公司非常乐于听到这句口号。在部分商业领域中，借助新工具得以更准确地衡量产量和业务发展情况，促使这些领域中的公司取得了巨大的进步。以库存控制为例，能够实时跟进每样产品的库存，使公司能够在减少存货的同时及时地满足客户需求。然而，在许多商业领域中，这一口号已经变更为：“如果你衡量了它，你就已经管理了它。”换言之，许多公司似乎用更多的数字取代了严谨的分析。

案例研究4.1：量化投资的力量

量化投资的发展最能体现数字在投资中的力量，其推广者对他们完全依赖数字进行投资这一事实丝毫不加掩饰。事实上，他们竞相比较着自己的投资过程已经在多大程度上依赖于数据以及其所使用的数据分析工具是多么的高效和精确。量化投资的根源，可以追溯到一位传奇性的人物——本杰明·格雷厄姆，他被许多人视为现代价值投资之父。格雷厄姆为找出股价被低估的公司开创了多种筛选方法，但在他所处的时代，应用这些筛选方法是一件很困难的事，因为数据通常是手工收集的，筛选也是手工完成的。如今，股票筛选已经变成了一件很容易，几乎是零成本的事了。

导致现代投资组合理论诞生的马科维茨革命，也是量化投资得以发展的一个促因。哈里·马科维茨在20世纪50年代提出的在既定的风险水平下找出产生最高收益的投资组合，即寻找有效投资组合的投资方法，由于受到数据访问和分析水平的限制，在当时堪称计算噩梦。如今，配备了性能强大的个人计算机和线上数据库开放的访问权限的个人投资者已能够凭借一己之力找出有效投资组合，在几十年前这可能是需要数人花费几周的时间才能完成的工作。

在20世纪70年代后期，随着历史收益数据和账务数据越来越容易获得，一股新的学术研究潮流涌现出来，研究人员开始致力于仔细钻研以往的数据，试图找到某种系统化的模式。人们从这些研究中初步发现，与市值较大的公司相比，市值较小的公司的股票的回报率更高，此外，低市盈股票总能跑赢大盘。这些都被学者称为反常现象，因为它们与经典的风险与收益模型所预测的结果并不相符。对这些市场失灵现象的发现为投资者和投资组合经理创造更高收益带来了良机。

在过去的十年中，随着数据可获得性的进一步提高（其中一些甚至是实时更新并公开的），加之计算能力突飞猛进的发展，量化投资演变出了一些新的但可能会产生麻烦的形式。在迈克尔·刘易斯最新出版的著作《高频交易员》中，他着重描述了一部分被称为高频交易员的投资者，这些人借助高性能的计算机从海量的实时价格数据中筛选出那些错误定价的商品，并立即以错误定价进行商品交易以赚取差价。这些暗池交易几乎完全是数字驱动的，是纯数字驱动型投资发展过程中的必然产物。

数字的危险性

正如故事讲述的优点可以被错误利用，数字的优点也极易变成弊端，并被数字处理者利用来劝说投资者接受他们的观点。

精确的假象

在一位数学家向我指出“精确”和“准确”这两个词的侧重点存在差异之前，我经常不加区分地使用它们。他使用一个镖靶来解释其中的差异：一个模型的精确度，可通过对于同一组输入数据该模型每次得到的预测结果之间的接近程度来衡量；而一个模型的准确度，则是通过比较模型结果与实际数字之间的接近程度来衡量的（见图4–1）。

换言之，你可以创建精确但不准确的模型，也可以创建准确但不精确的模型。这一差异值得我们注意，因为数字处理系统常常错误地将精确度看得比准确度更重要。

你对数字研究得越多，就能越早地意识到，尽管数字看起来或可以被伪装得很精确，但它们其实一点儿都不精确，尤其是在被用于对未来进行预测时。事实上，统计学家已经试着在估算过程中揭示这种不精确性了。在统计课上，你会被教导在进行估算时，应同时标出估算值的“标准误差”，以提示结果存在的潜在误差。但在实践中，尤其是在商业和投资领域中，人们会忽略这条忠告，而将估算结果当作事实，这常常会导致灾难性的后果。

图4–1 精确度与准确度

最后，数字还有一个特性，这一特性会进一步强化数字的不精确性。行为经济学中的一项重要发现是，我们对数字的反应不仅取决于数字的大小，还取决于数字被“框定”的方式。零售商就利用了数字的这个弱点。他们会将一件商品的价格标高至2.5美元，然后在旁边标注该商品现在打8折，因为购物者更倾向于购买这样一件打折的产品而不是价格直接标注为2美元的类似产品。在一个更著名的框架偏差的例子中，研究者给被试展现了这样一个情境——有600名患者感染了某种致命的疾病，被试被要求从针对该状况的两种处理方式中做出选择，每种处理方式的对应结果如表4–1所示。在正面框架中，72% 的被试选择处理方式A而不是处理方式B，尽管两种方式的最终结果从数字层面来看完全相同。而在负面框架中，只有22% 的被试选择处理方式A而不是处理方式B，同样，两种方式的最终结果从数字层面来看是相同的。在商业环境中，这两种框架可以类推为赚钱（正面）和赔钱（负面）以及公司生存（正面）和公司失败（负面）。根据研究结果，对相同数字采用不同的框定方式同样会导致不同的决策反应。

表4–1 框架效应

案例研究4.2：“嘈杂的”历史——股权风险溢价

股权风险溢价，简单地说，即投资者将资金投入股票（一种风险投资）而不是投入无风险的投资中的要价。因此，如果投资者可以赚取3% 有保障的（无风险的）年收益，那么股权风险溢价就是他们投资股票所要求的年收益超过3%的部分。直觉上，你会认为股权风险溢价会随以下因素而变化：第一，投资者规避风险的程度，越规避风险，股权风险溢价就越高；第二，投资者对所投资股票风险程度的评估，风险越高，股权风险溢价就越高。

考虑到股权风险溢价是公司的财政情况评估与估值的关键信息，你将如何估算这个数字？大多数从业者会求助于历史数据，考察投资者过去相较于无风险投资在股票上获得收益的情况。在美国，相关的历史数据最早可以追溯到一个世纪或更久以前，尽管现在的股票市场与当时相比已经扩大了许多倍且已经发展成熟。如果你认为美国财政部不可能违约，因此它发行的证券（短期国债和长期国债）是有保障的无风险投资，那么你就可以从过去的数据中估算历史股权风险溢价了。例如，1928~2015年，美国股票的年均收益率为11.41%，而同期国债的年均收益率为5.23%。二者相差的6.18% 即为历史股权风险溢价，而从业者会利用这一数字预测未来。

对这一数字做进一步的探究，应当注意到的一点是，这个平均值是根据易于波动的股票收益率计算得出的，股票收益率的波动范围在1933年高达50% 的年收益和1931年低至–44% 的年收益之间。图4–2记录了股票收益的波动情况。

因此，估算出的6.18% 这一历史股权风险溢价就需要带上一个“标准误差为2.30% ”的警告标识。这意味着什么呢？笼统地讲，这意味着你的预测最多可能会有上下4.60% 的误差，也就是说你的真实股权风险溢价可能低至1.58%，也可能高达10.78%。

图4–2 1928~2015年美国股票和长期国债的年收益波动情况

资料来源：Damodaran Online（http://pages.stern.nyu.edu/~adamodar）

如果考虑到估算方法会影响估计值这一事实，这些数字的波动幅度甚至会更大。你可以不使用1928~2015年的数据，而使用更短时间（比如说最近10年或50年）或者更长时间（历史数据最早可追溯到1871年）内的数据。你也可以不使用10年期的长期国债，而使用3个月的短期国债或者30年期的长期国债作为比较对象。此外，你还可以使用复合平均数或几何平均数来代替算数平均数。每种估算方法的使用都可能产生一个不同的历史股票风险溢价估计值，如表4–2所示。

表4–2 根据不同估算方法得到的美国年度股权风险溢价估计值

因此，在美国，选择不同的时间窗口，使用针对无风险投资的不同估算方法，甚至是使用不同的收益平均值计算方法，都会导致产生差异很大的股权风险溢价估计值。因此，历史股权风险溢价只能是一种估计，而非事实。

客观的错觉

框定数字的方式可以改变人们对数字做出反应的方式，根据这一事实，我们进而可以联想到有关数字的第二种错觉——数字是客观的，数字处理者不会将个人意图带入数字处理中。真的是这样吗？在下一章中，你将详细了解到收集、分析和展示数据的过程为偏差的入侵提供了非常多的机会。更糟糕的是，在专业数字处理者的掌控下，用数字来掩饰偏差比讲故事的效果更好。

从听众的角度来看，有不同的偏差在起作用，你看待数字的方式和你选择关注的数字都取决于你先前的看法。举例而言，我在我的个人网站上估算了每年年初美国公开上市交易的公司支付的实际税率。为了提供全面的统计数据，我使用了三种不同的计算平均值的方法报告了每个行业的平均税率：行业内公司税率的简单平均数、行业内公司税率的加权平均数和行业内在当年实现盈利的公司税率的加权平均数。每年都有一些记者、政治家和商业贸易集团使用我的税率数据，而这些数据常被用来支持彼此之间差异很大的观点。商业贸易集团为了证明他们支付的税费份额是合理的，会选择能产生最高值的税费算法来为自己辩护。认为美国公司所支付的税费份额不合理的游说团体也会查看同一份表格，并找到产生最低值的税费算法来支撑他们的论证。双方都据理力争，说事实（和数字）是支持他们一方的观点的，同时都不承认偏差的存在。

案例研究4.3：数字和偏差，以及股权风险溢价

案例研究4.2中，我已说明了不同的估算方法会产生不同的股权风险溢价估计值，这些估计值介于低值2.53%（2006~2015年间股票超过长期国债的几何平均溢价）和高值7.92%（1928 ~ 2015年间股票超过短期国债的算术平均溢价）之间。根据之前我对1928~2015年间股权风险溢价估值的标准误差2.30%，这一结果是非常合理的。

选择使用不同的股权风险溢价估值会产生不同的影响，在美国，一个影响可能会很大的领域就是公用事业（供电业、供水业）领域。数十年来，这些行业中的公司一直在其所处区域内处于垄断地位，但作为交换条件，监管委员会决定这些公用事业领域的产品价格可提高的幅度。这些委员会在做决策时会考虑什么样的收益率对于这些公司的投资者来说是合理的，然后据此设定产品价格的提高上限以使这些公司实现该收益。在过去几十年中的大部分时间里，这一合理收益率的计算都是将股权溢价风险作为一项关键参数来进行的，具体而言，收益率会随着股权溢价风险的增加而增加。

不出所料，受监管的公司和监管机构对于应当采用表4–2中的哪个数字产生了很大分歧。一方面，这些公司希望采用尽可能高而又不用被追究责任的溢价，比如表中的7.92%。因为溢价越高，意味着收益率越高，价格可以提升的幅度也就越大。而另一方面，监管委员会则更倾向于采用较低的溢价，因为这样做可以抑制产品价格上涨，令消费者更满意。双方都声称其对溢价的估计值是真实的，因此常常需要法院或者仲裁委员会来推出一个折中方案。

控制感的错觉

可以衡量一个事物并不代表你就可以控制它。比如，体温计可以测出你发烧了，却不能帮你退烧；对投资组合收益率标准误差的估量只能告诉你它是有风险的，但并不能帮助你规避风险。话虽如此，但当你能够衡量某个事物时，你还是会感觉自己更有控制感，而且你花在数字上的时间越多，你对测量工具的依赖也就越大，这是事实。

在我倾注了自己大部分时间的公司财务与估值领域，我注意到几个常见现象。首先是假设分析或者灵敏度分析经常被用作对估值或项目分析的补充。在大多数情况下，这些分析发生于决策完成之后。对于分析师在这些分析上花费如此多时间的原因，我可以提供的唯一解释是，这可以让他们获得更多的控制感。其次是分析师会留意一些细小且一般不相关的细节。我想半开玩笑半认真地告诉你，无论是对于公司估值还是对于项目收益率，当我感到不确定时，我会在最终数字上加上几位小数以让估值结果显得更精确。

仅仅因为拥有精密的测量工具就误认为自己控制着一切的风险就是，它不仅会让你在判断时用数字完全取代你的常识，而且会让你无法针对今后的风险做好相应的准备。不幸的是，2008年的信贷危机期间，全世界的银行就遭遇了这种风险。在危机爆发的20年前，这些银行开发出了一种名为VAR（风险价值法）的风险度量方法，这使他们能够以数字的方式看到其行业损失的最坏情况。在这20年中，风险管理专家和学者对VAR进行了不断的修正，使该方法变得越来越强大、复杂，以达到使其更有效的目的。随着银行经理越来越依赖VAR，他们逐渐放松了警惕并做出这样的推论：如果计算出的VAR结果处于他们设定的安全范围之内，那么他们所面对的风险就处于控制之中。然而，这种幻觉在2008年的金融危机中轻易地破灭了，VAR核心假设的弱点暴露了出来，原本以为可以借助VAR规避灾难性风险的银行发现自己陷入绝境。

案例研究4.4：长期资本管理公司经历的一个可悲（却真实）的故事

如果你过于信任数字，你就应该关注LTCM（长期资本管理公司）的经历。该公司由前所罗门兄弟公司的操盘手约翰·梅里韦瑟于20世纪90年代早期成立，公司承诺其汇聚了金融界最有头脑的人才，能够以极高的效率发现并利用债券市场中的错误定价。在践行该承诺的第一部分时，梅里韦瑟从所罗门挖走了那里最优秀的债券交易员，并召集了两位诺贝尔奖得主，迈伦·斯科尔斯和罗伯特·默顿加入进来。在公司成立的最初几年，该公司也实现了承诺的第二部分，为华尔街的精英赚取了巨额收益。在那些年，LTCM利用了安全的投资机会，借助低成本债券融资来扩大资本并赚取可观收益，成为华尔街其他公司羡慕的对象。

随着可支配资金规模的不断扩大，该公司不得不拓宽探索范围，纳入更有风险的投资。而通过数据分析，它确实找到了此类投资。该项举措原本并不致命，但该公司将针对安全投资的举债经营的方式，照搬到了风险更大的投资上。之所以这样做，是因为根据一些复杂模型的预测结果，他们了解到，尽管单独的投资是有风险的，但根据历史经验，这些单独投资的盈亏变化并不同步，因此这种组合投资的方式是安全的。

1997年，俄罗斯市场的崩溃波及了其他市场，而该公司的策略也同时宣告失败。由于其投资组合的价值发生了大幅度下跌，LTCM发现自身深陷规模扩大和高额负债的副作用。LTCM无法在不影响市场价格的情况下解除大额头寸，同时又持续地受到来自抵押贷款机构的还款压力，因而面临着必然破产的危机。美国联邦储备委员会（美联储）担心其会连累市场上的其他投资者，于是为该公司进行了由银行牵头的紧急融资援助。

从LTCM的惨败案例中我们可以吸取什么教训呢？拥有最杰出的人才、最新的数据和最佳的投资或商业模型，都不能确保你获得成功。

震慑作用

如果你是一名财务分析师、投资顾问或者银行家，并且正面对着一群质疑你的听众，那么使听众安静下来的最简单的方法就是打开一张填满数字的复杂的电子数据表。当你的听众并不善于分析数字时，这一招会尤其有效，而如果这群听众精于数字，你也不必担心，因为仅依靠人脑，他们一般也无法读完并弄懂页面上的一大堆数字。

数字具有震慑作用这一事实无论是对于数字处理者还是对于他们的听众而言，都已不是一个秘密。对于数字处理者来说，这种震慑作用能够有效打断争论和阻止听众深究问题，从而避免数字中所包含的严重的甚至是致命的漏洞被揭穿。对于听众来说，数字为他们提供了一个不用认真研究的借口。当危机发生时，就像2008年的VAR那样，数字处理者和数字使用者都将责任归咎于模型本身。

我知道我能够用数字给那些不同意我的估值和投资判断的人一种震慑。当被问及切中我的投资判断要害、可能会暴露其弱点的问题时，我会迫切地想搬出一个方程，要么用来转移问题，要么用来使提问者对其所提问题的根据感到怀疑，但我也知道这样做只会使我的判断显得更不可靠。

模仿问题

如果你完全依赖于数字进行决策，就如一些纯粹的数字处理者所宣称的那样，那么作为决策者，你的麻烦就大了。原因有二。第一个原因是你让自己处于完全可以被取代的位置，你不仅可以被其他地方的要价更低的数字处理者取代，还可以被机器取代。毕竟，如果你的强项是在决策时可以像机器一样保持客观且只受数字驱动，那么，要执行该项任务，真正的机器永远可以比你做得更好。这正是提供机器人投资建议的新兴金融技术公司的业务：他们会像金融顾问那样询问投资者一些可以将答案转化为数字的问题（年龄、收入、存款和退休计划），然后计算机会根据这些数字生成一份投资组合建议。

如果你认为自己不会被取代的理由为，你所拥有的数据比其他人的更好且你的计算机比其他人的更强大，那么你将面临第二个问题，即完全靠数字驱动的决策过程是很容易被模仿的。因此，如果你投资“定量对冲基金”，并精心构建了一个定量模型来寻找最好的股票以买进和卖出，那么只要我能够看到你买进和卖出的股票，并使用一台功能足够强大的个人计算机根据你的投资结果反推模型，我就能轻易地复制你的策略了。

从众问题

让我们设想一下，你生活在一个大数据的世界里，在这个世界里你和其他所有人都拥有一个共同的巨大的数据库和一台功能强大的计算机可用于分析和理解数据。因为所有人都共享相同的数据，甚至可能使用的是相同的工具，所以，你和其他人可能会在几乎相同的时间关注到相同的机遇，并抓住这些机遇以获取利润。当你们在同一时间买进和卖出相同的股票时，这一过程将产生“羊群效应”。那会怎样呢？羊群效应会形成一种势头，从而至少会在短期内强化你的决策。但如果某个基础要素（整体的商业、市场或者经济）出现了结构性的变化，羊群效应就会导致集体性的错误。毕竟，数据来源于过去，而如果未来不同于以往，那么结构性变化的发生将会使基于以往数据的预测彻底瓦解。

这一效应的可能后果令人警醒。随着我们日益步入数据驱动型世界，越来越多的人能够使用数据，毫无疑问，我们将会比以往任何一个时代都更频繁地见证繁荣与萧条。市场泡沫问题比以往任何时候都更严重，而当这些泡沫破灭（这是必然的）时，损失也会变得更加惨重。

讲故事是解决问题的法宝

如果数字存在让人产生虚假的控制感、精确性和客观性以及易于模仿等危险性，那么如何将故事与数字进行关联来减少这些危害呢？首先，故事的特性是模糊性，而且故事能够提醒我们，尽管数字看起来是精确的，但改变你的故事就会改变数字。其次，这个提醒也可以消除这样一种错误观念，即你总能以某种方法实现你的预测。实际上这是不现实的，就像你的故事也会被不可抗力改变一样。当你被迫讲述支持你的数字的故事时，你的偏差不仅会暴露给世界上的所有人，也会暴露给你自己。我也相信，如果你能成功地将故事和数字结合起来，他人也会更难效仿你。有别于容易复制的模型，讲故事更细致入微、更加个性化且更难以复制。

将故事与数字进行关联，至少在近期，还不能解决羊群效应的问题。群体思维会导致人们在数字的引导下蜂拥买入相同的股票或者进行相同的投资，也会导致他们强化彼此的故事。但有人认为，制止愚蠢的群体行为的最佳方式是讲述另一个由数字支撑或更具可信性的（更真实的）故事。

案例研究4.5：量化投资的失败

在案例研究4.1中，我将量化投资描述为数据革命的高潮，即金融市场中的“点球成金”。在这样的金融市场中，数字处理取代了早期的文字叙述和讲故事。接下来，我想讨论数字的危险性（数字具有不精确性，是传播偏差的媒介，并能给人带来控制感的错觉）是如何作用于量化投资（至少某些方面）的失败的。

我们先从数字的不精确性说起。如果你是金融界的比利·比恩，那么好消息是，数字可以创造海量数据，这些数据部分来自公司的财务档案，更多的则来自市场本身（价格变化、交易量）。而坏消息是，你会看到数据是非常嘈杂的，甚至在宏观的市场层面也是如此，从我在案例研究4.2中对股权风险溢价进行的标准误差计算就可以看出这一点。几乎所有的量化策略都建立在以往数据的基础之上，其给出的承诺（通常用阿尔法或超额收益的形式来表现）则带有这样一个限定条件：利用以往的数据无法预测未来，而且即便可以预测，预测结果仍有诸多不确定性。

至于偏差，尽管我们一直在努力避免，但完全避免偏差对你处理数字的方式和读取数据含义的方式产生丝毫影响是不可能的。一旦你制定出了一个量化投资策略，为其命名并将其出售给客户，你便不可回头地踏上了一条偏差之路，你会想尽一切办法证明你的策略是有效的，即使它已面临必然的失败。

2008年的金融危机证明了对冲基金对投资收益的控制能力微乎其微。成熟市场经历了一次近代历史上绝无仅有的困境，基于历史数据仔细构建的模型不但提供了错误的信息，而且在同一时间误导了众多的投资者。

我还不准备放弃量化投资，因为我们身边仍有很多因素使其成为关注的焦点。但我认为量化投资的成功和失败反映了数字的前景和风险。量化投资要想取得成功和进步，必须找到一种将故事与数字相结合的方式，而如果你成功找到了这种方式，那么量化投资不仅会更成功，而且也会更加难以被模仿和取代。

小结

我天生就着迷于数字，但当我研究数字时，极为讽刺的一件事是，我对数字研究得越多，对于完全以数字为支撑的论点就越感到怀疑。在我研究数据（包括财务数据和市场数据）的过程中，我意识到数据中包含了多少干扰信息，以及根据这样的数据来进行预测有多困难。我相信科学方法，但不相信世界上存在着“纯粹”的科学家。所有的研究都是带有偏差的，问题只在于偏差的方向和程度。因此，当有人向我讲述一个完全由数字支撑的论点时，我的任务就是探究论点提出者的偏差，而一旦我发现了其偏差所在，我接下来的任务就是对数字进行调整以揭露偏差。现在我已经了解到，我所认为的“只要我为某个步骤或者变量赋值，我就可以控制甚至理解它”是一种傲慢的想法。因此，虽然我可以利用数字为你提供许多种不同的衡量风险的方法，并且这些方法中的大部分都具有长期的研究作为背书，但实际上，我每天都会问自己一个基本的问题：究竟什么是风险？它会如何影响作为投资者的我们？

第4章 数字的力量