我第一次在酒店大堂见到扬和马里乌斯时就惊到了,他们比我在大学里教的学生大不了多少。他们希望从我这儿学到更多的数学知识,而我也希望从他们身上尽可能多地了解博彩的世界。
我们之前在网上聊过,但这是第一次在现实中碰面。他们在此次欧洲之行中已经见过了众多足彩专家和专业咨询人士,旨在为接下来的一年做准备。我所在的瑞典乌普萨拉是他们的最后一站。
在我们准备离开酒店的时候,马里乌斯问道:“我们需要把笔记本电脑带去酒吧吗?”
“当然!”我回应道。
这次见面只是为了让彼此熟悉一下,正式的工作第二天才开始,但我们三个都知道,即使是不太正式的交谈,也会用到一些数字计算,因此需要带上电脑随时待命。
你可能会认为你需要了解很多知识才能更准确地下注,你需要对比赛有深入的了解,包括了解双方球员的特点和伤病情况,也许你还需要得到一些内部消息。10年前,这一观点可能还是对的。在那时,仔细看比赛、观察每个球员的肢体语言以及观察他们在对抗时的表现如何,能让你比只会支持本地球队的下注者更有优势。但今时不同往日。
扬对足球的兴趣并不大,对即将来临的2018年世界杯 的大部分比赛也都不感兴趣。“我会看一看德国队的比赛。”他带着自信的微笑说道。
这个夜晚正逢世界杯开幕式,一场盛大赛事的开始。无论你喜欢与否,只要生活在这个星球上,你都会不可避免地听到与世界杯相关的消息。但是对于扬来说,除了自己国家的队伍,其他球队对他来说都一样——不论是德甲、挪超联赛还是世界杯,也不论是网球还是赛马。任何运动的任何一场比赛对他和马里乌斯而言都只是一个赚钱的机会而已,而正是对赚钱机会的渴求让我认识了他们。
几个月前,我发表了一篇关于足球博彩模型的论文。 [1] 这不是一个普通的数学模型。在2015—2016赛季的英超联赛开始之初,我写下了一个公式,利用该公式投注英超联赛,你就可以打败庄家!
截至2018年5月,它已经获得1 900%的利润。如果你在2015年8月按照我的模型投注100美元,那么在不到3年后的今天,你将获得2 000美元。而你唯一要做的就是严格地根据我的模型下注。
我的公式与球场上发生的一切无关。它并不涉及比赛的过程,也与谁赢得了世界杯无关。我的方法涉及一类与庄家赔率有关的数学函数,我们根据历史偏差对其做出调整,并给出新的下注赔率。这就是赢钱所需的全部了。
我公布了自己的公式,这引起了相当多的关注。我曾在《经济学人1843》这本生活杂志上发表过相关细节,并在接受英国广播公司、美国消费者新闻与商业频道、报纸和社交媒体采访时都谈到了这些细节。这些都不再是秘密,但扬和马里乌斯想请教我的就是这个模型。
“你为什么会觉得你到现在还有优势呢?”马里乌斯问道。
赌博中最重要的是信息,如果你拥有一些别人不知道的信息,并且那些信息能挣钱,那么你最不应该做的就是跟人分享这些信息。“优势”一词就是指你比庄家多了解的一点点信息。为了不丧失掉优势,你应该保守秘密。如果这些信息泄露了,那么所有人都能利用它,而庄家也会修改赔率,你的优势也会丧失殆尽。话虽这么说,我却做了相反的事,我抓住一切机会告诉人们我的公式是什么。马里乌斯想知道,为什么尽管这样大肆宣传,我的模型仍然奏效。
你只要看看我每天收到的询问投注技巧的电子邮件和私信,就能回答马里乌斯所提的问题了。“你认为谁会赢得明天的比赛?我读过很多有关你的文章,我渐渐开始相信你了。”“我打算筹集创业启动资金,你关于博彩的建议肯定会带领我朝正确的方向前进。”“你买了谁,克罗地亚还是丹麦?我的直觉告诉我丹麦会输,但我不太确定。”“你觉得英格兰这场比赛的结果会是什么?平局吗?”类似的提问数不胜数。
我对此毫无得意之情,但人们不断向我发送这些消息也回答了马里乌斯的问题:我的模型依然可以让人们获利。尽管我反复强调了我的方法的局限性,并强调它是基于统计的长期战略,但公众的询问仍集中在“阿森纳在本周末能否获胜?”“如果萨拉赫不参加比赛,埃及能否从小组赛中突围?”这类问题上。
给我发送电子邮件的人至少在互联网上搜索过数学和赌博建议,但有更多的人不做任何研究就去参与赌博。有人赌博是出于第六感,有人是为了娱乐,也有人是因为喝醉了,或者因为他们需要现金,在某些极端情况下,有人赌博是因为他们上瘾。总的来说,与使用我的方法或类似方法的一小群职业赌徒相比,这类人明显更多。
我向马里乌斯解释说:“该模型仍奏效的原因是,它给你提供的投注建议通常是人们不愿意去照做的。在利物浦对阵切尔西时押平局或在小赔率下押曼城能踢赢哈德斯菲尔德并不是一件有趣的事。”赚钱需要时间和耐心。
马里乌斯发给我的第一封电子邮件不属于通常那99%的类型。他告诉我他和扬合作开发了一个自动系统,试图在博彩市场中赢利。他们的想法是大多数博彩公司属于“软”博彩公司,即它们提供的赔率并不总是能反映出球队获胜的真实可能性。
绝大多数下注者(很可能包括所有向我发送信息询问投注技巧的人)都会通过“软”博彩公司下注。像帕蒂鲍尔、立博和威廉希尔这样街知巷闻的公司都属于这一类,相对没那么出名的线上博彩公司红博和888体育也属于这一类。这些庄家优先提供特殊优惠,鼓励顾客进行下注,但很少试图获得反映体育赛事真实结果的赔率。“硬”博彩公司(如平博或火柴盒)需要准确调整赔率以预测比赛结果,余下的1%的赌徒往往选择这种博彩公司。
马里乌斯和扬的想法是利用“硬”博彩公司从“软”博彩公司那里赚钱。他们的系统会监视所有博彩公司的赔率,包括“硬”的和“软”的,并从中寻找差异。如果其中一个“软”庄家提供的赔率比“硬”庄家更大,那么他们的系统将建议在这位“软”庄家处下注。这种策略并不能保证一定会取得胜利,但是由于“硬”博彩公司给出的赔率更加准确,这带给了马里乌斯和扬最重要的优势。从长期看,在下注成百上千次之后,他们将从“软”博彩公司那里赢钱。
马里乌斯和扬的系统有一个局限性:“软”庄家会禁止获胜者入场。这类博彩公司由庄家决定是否允许你投注,一旦看到马里乌斯和扬的账户开始赢利,庄家便会禁掉他们的账号。博彩公司会发送类似这样的信息:“现在您的最大下注金额为2.5美元。”
但现在他们找到了规避这一规则的方法。在开发出了整套系统后,他们现在提供订阅服务。只需每月支付订阅费用,订阅者即可通过邮件收到相关信息,指导他们在软博彩公司如何下注可以赢利。这意味着即使被禁止,扬和马里乌斯也可以继续获利。这对除了庄家之外的所有参与者而言都是双赢。业余赌博者可以得到长期赢利方案,而马里乌斯和扬可以从中赚取佣金。
这就是我和他们二人坐在酒吧里的原因。他们已经掌握了自动收集数据和投注的技巧,而我的公式可以进一步提升他们的优势:我的英超联赛模型不仅可以击败“软”博彩公司,还可以击败“硬”博彩公司。
此时此刻,我相信我已经找到了在即将到来的世界杯中取得优势的办法,但是我需要更多数据来检验我的假设。还没等我说完自己的想法,扬就打开了笔记本电脑,试图接入酒吧的无线网。他说:“我们可以从过去的8场大型国际比赛中得到合理的赔率,我有一些代码可以替我们抓取这些数据。”
我们最后商量出了一个计划,并确定好了执行该计划所需的数据。扬在回到他的酒店后启动了数据抓取程序,在夜里开始收集历史赔率。
*
马里乌斯和扬都是技术型职业赌徒。他们精通编程,知道如何获取数据,并且懂数学。与老派的赌徒相比,他们的特点在于,他们通常对比赛项目本身不太感兴趣,而是对数字更感兴趣,但是他们对赚钱同样感兴趣,也更擅长。
我的下注方法成为这对搭档的雷达,使我得以接近他们的赌博网络。但是,当我询问他们正在从事的其他项目时,他们给出了谨慎的回答,可见他们还没有准备好接纳我成为俱乐部的正式成员。起码目前还没有。我只是一个业余爱好者,当我说打算在我们正在开发的系统上投注50美元时,他们笑了笑,关于其他项目,他们透露给我的也仅仅是必需信息而已。
不过,在体育博彩行业我还有一个熟人,我们之间的交情更深一些。他近期离开了体育博彩行业,虽然他不想让我透露他的身份以及他的雇主(下文中我们就称他为詹姆斯),但他很乐于分享自己的经验。
詹姆斯告诉我:“如果你真的有优势,那么对你而言唯一能阻止你赚钱的因素就是下注的速度。”
为了弄明白詹姆斯的观点,我们先来设想一个回报率为3%的传统投资。如果你投注的总资本为1 000美元,那么一年后你将有1 030美元,获利30美元。
现在我们假设用1 000美元来赌博,我们相对庄家有3%的优势。你当然不想冒着输掉所有钱的风险一次性投注所有资金,因此我们可以考虑先下注10美元,这样风险相对适度。你不会每次都赢,但是3%的优势意味着,平均而言,每10美元的赌注你将赢得30美分。因此,这一次投注相对于1 000美元的投资的回报率为0.03%。
要想得到30美元的利润,你需要这样下注100次。如果按每年下注100次来算,那就是每周大约两次,比大多数人都要多。我们这些业余爱好者要清醒地认识到,即使你确实有优势,作为一个从赌博中找乐子的业余爱好者,你也不能指望从1 000美元的投资中赚到多少钱。
与詹姆斯合作的不完全是业余爱好者。每天在世界各地进行的足球比赛轻轻松松就超过100场,扬下载了最近1 085个不同联赛的数据。除了网球、橄榄球、赛马,还有其他户外运动,这里面到处都是赌博的机会。
现在让我们想象一下,詹姆斯和他的同事只在足球比赛中占优势,每天下注100场比赛,如此持续一年。我们还假设,随着利润的增加,他们下注的金额会随着本金的增加而成比例增加,因此,一旦他们赚到了10 000美元,他们每次下的赌注就变成100美元。他们的资产到100 000美元之后,那每次的下注金额就变成1 000美元,依此类推。那么到年底,有3%优势的赌徒究竟能赚多少?1 300、3 000、13 000还是310 000美元?
实际情况是到年底,他们的资产应该达到56 860 593.80美元,将近5 700万美元!每次投注仅使资本增加0.000 3倍,但在投注36 500次后,指数增长的力量开始显现,利润急剧增加。 [2]
但在实际中,这种增长水平是无法实现的。即使詹姆斯和他的前同事下注的“硬”庄家比“软”庄家允许更大的赌注,这里面仍然存在局限性。詹姆斯告诉我:“伦敦的博彩公司发展迅速,规模庞大,他们现在必须通过经纪人才能下注。否则,如果每个人都知道他们在某场比赛上下注,那么其他人就会涌入市场,他们的优势就会消失。”
尽管有这些限制,但是在公式的帮助下,这些博彩公司仍然赚得盆满钵满。只要看到博彩公司的办公室内部装饰有多豪华,就知道他们有多成功了。行业领头羊之一足球雷达会为员工提供免费的早餐,他们可以随意使用豪华健身房,休息的时候可以打打乒乓球或玩玩游戏机,可以得到他们需要或是想要的任何电脑设备。该公司还鼓励数据科学家和软件开发人员自己决定工作时间,并声称他们能提供与谷歌或脸书相似的能激发创造力的工作环境。
足球雷达的两个主要竞争对手智率和星蜥也位于伦敦。这两个公司的老板分别为马修·贝纳姆和托尼·布鲁姆,他们都凭借过人的数字天赋做出了自己的事业。贝纳姆曾就读于牛津大学,在那里他开启了基于统计学的赌博业务,而布鲁姆则是一名职业扑克玩家。2009年,他们各自收购了家乡的足球俱乐部,布鲁姆买下了布莱顿足球俱乐部,贝纳姆买下了布伦特福德足球俱乐部。贝纳姆总能在博彩游戏中占先,他觉得不如买下一家公司更好,于是将“硬”博彩公司——火柴盒收入囊中。
贝纳姆和布鲁姆都利用大数据找到了小优势,并获得了巨额利润。
我告诉扬和马里乌斯的计算热门球队赢得世界杯比赛的概率公式如下:
其中x是庄家赋予被看好的球队的赔率。这里的赔率用英国人惯用的方式给出,赔率为3∶2或者x=3/2意味着,如果投注成功,那么你每投注2美元能得到1美元的回报。
让我们分析一下公式1的实际含义,首先从公式的左边开始,我将其记为P(最热门球队夺冠)。数学模型从来不会给出关于输和赢的绝对预测,通常它只会给出受欢迎球队的获胜概率,为0%到100%之间的一个数值,表达了对于预测结果的确信程度。
这个概率值取决于公式右边的项,它包含三个字母,x是拉丁字母,α和β是希腊字母。曾经有一位学生告诉我,她觉得涉及拉丁字母x和y的数学计算直接而简单,但是当我们开始用希腊字母α和β讨论问题时,数学计算会变得尤为困难。对于数学家来说,这种说法有些好笑,因为x、y、α和β只是符号,它们不会使数学变得更简单或者更困难,因此我当时认为这位学生只是在开玩笑。但她确实提出了一个重要的观点:当α和β出现在公式中时,数学本身往往会变得更加困难。
我们首先去掉这些希腊字母,得到
这个公式变得简单很多。如果赔率为3/2(按欧洲的通常记法是2.5,按美国的通常记法是+150),那么受欢迎球队赢得比赛的概率为
事实上,这个公式表示了在没有α和β的情况下,庄家对于热门球队的胜率的预测。他们觉得热门球队有2/5或者40%的概率获胜。在另60%的情况下,该球队要么平局,要么落败。
在不考虑α和β(或者严格来说,令α和β都为1)的情况下,我的预测公式相当好理解,但是此时这个公式没有任何的赢利能力。为了理解为什么,想象一下如果你给最热门球队投注了1美元会发生什么。如果庄家的赔率是正确的,那么平均来说5次中你有两次能赢得1.5美元,其他3次则输掉1美元。因此平均来说你能赢得
换句话说,这个公式告诉你,在多次投注后,平均来说你什么也得不到,净赚额为零。而且在有些情况下可能更糟。开始的时候我假设庄家给出的赔率是公平的。 [3] 事实上,它们不可能是公平的。庄家总是会调整自己的赔率,以确保自己能获利。因此,他们可能提供7/5的赔率,而不是3/2。因此除非你知道自己在做什么,否则这种调整意味着庄家永远是赢家,而你会一直输。如果是7/5的赔率,平均来说你每投一次注会输掉4美分。 [4]
击败庄家的唯一方法就是用数据说话,而这些数据正是扬离开酒吧后的那个晚上通过电脑抓取的数据。扬的程序收集了自2006年德国世界杯以来所有世界杯和欧洲杯比赛(包括预选赛)的赔率和结果。第二天早上,我们坐在我的大学办公室里,开始寻找优势。
我们首先加载了数据,并将其导入类似表1-1的电子表格中。
表1-1 2014年世界杯比赛的赔率、概率和赛果
根据这些历史结果,我们可以通过比较表1-1数据的最后两列来了解庄家给出的赔率到底有多准确。例如,在2014年世界杯西班牙和澳大利亚的比赛中,他们预测西班牙获胜的可能性为73%,而他们确实预测对了。这可以被认为是“好”的预测。另一方面,他们预测意大利战胜哥斯达黎加的概率为63%,但结果是哥斯达黎加赢了。这可以被认为是“坏”的预测。
我将这里的“好”和“坏”加了双引号,因为没有其他比赛结果供比较,所以我们无法真正评估预测的好坏程度。这就是α和β需要介入的地方,它们均为公式1中的参数。我们可以调整参数的值,利用它们,我们可以微调公式以使其更加精确。尽管我们无法更改西班牙对澳大利亚这场比赛的最终赔率,也无法影响这场比赛的结果,但我们可以选择合适的α和β来得出比庄家更好的预测。
我们可以用逻辑回归来寻找参数α和β最合适的取值。为了理解逻辑回归是如何起作用的,我们可以先考虑如何通过调整β的值来优化对西班牙与澳大利亚比赛结果的预测。如果我们让α为1,β=1.2,那么我们有
因为比赛最终结果是西班牙胜,所以这里得到的77%的概率比庄家的73%的预测要好。
但这里也存在一些问题:如果我增大β的值,那么在2014年英格兰与乌拉圭的比赛中英格兰胜的概率会从51%增加到52%,但是那场比赛中英格兰落败了。为了解决这个问题,我可以增大另一个参数,如令β=1.2,α=1.1。这样一来,西班牙胜澳大利亚的概率为75%,英格兰胜乌拉圭的概率为49%。相比于之前令α和β都等于1的情形,这两个预测都更准确一些。
我们在上面尝试对参数α和β做了调整,并将结果与两场比赛的赛果进行了比较。扬的数据集则包括自2006年以来历届世界杯和欧洲杯的总计284场比赛。对于人类来说,不断更新参数值,将其代入公式并查看这些调整是否能改善预测会非常耗时。但是,我们可以使用计算机算法来执行这项计算,这就是逻辑回归的功能(参见图1-1)。它系统地调整了α和β的值,并给出了尽可能接近实际比赛结果的预测。
我用Python编程语言编写了一个脚本来执行计算,按下了“运行”,然后看着我的代码处理所有数据。几秒钟后,我得到了一个结果:当α=1.16和β=1.25时,该模型给出的预测最为精确。
图1-1 利用逻辑回归设定参数为α=1.16和β=1.25
这些数据立即引起了我的注意。两个参数α和β都大于1,这表明赔率与结果之间存在复杂的关系。理解这种复杂关系的最好方法是在电子表格中添加新列,将我们的逻辑回归模型与博彩公司得出的预测进行比较。
表1-2 2014年世界杯比赛的赔率、概率、逻辑回归模型概率和赛果
从这里我们可以看到,铁杆赌徒口中的长期偏见现象总是会发生在西班牙这样的热门球队身上。这些队伍在庄家的赔率中通常是被低估的,因此值得下注。另一方面,像2014年的英格兰这样较弱的热门球队则被高估了。英格兰的获胜概率低于赔率所给出的数值。尽管预测和模型之间的差异很小,但扬、马里乌斯和我都知道这足够我们从中获利。
我们在世界杯中发现了一个小优势。但目前我们还不是很清楚在以往比赛中出现的优势会不会出现在这届世界杯上,因此我们可能得承受一些损失才能找到它。午餐时间,基于我的公式开发的交易系统正式投入使用。我们按下了“运行”,静候结果。我们将在整个世界杯期间自动投注。
午餐后,我们一同回到了我的家。马里乌斯和我坐在地下室,观看乌拉圭对阵埃及的比赛。扬拿出他的笔记本电脑,开始下载网球的赔率数据。
*
我的投注公式不仅与一届世界杯有关,它的目的也不只是从庄家那儿获利。它真正的力量在于让我们以概率的方式看待未来。使用投注公式意味着我们要抛开我们的第六感,并且不再对足球比赛、赛马、财务投资、工作面试甚至浪漫约会的结果做百分百确定性的预测:你永远无法知道下一步会发生什么。
我们大多数人都有一个模糊的理念,即未来要发生的事在很大程度上是由概率决定的。如果天气预报告诉你明天有75%的可能性是晴天,那么即便你在上班途中遇到倾盆大雨,也不应该感到惊讶。但是要找出隐藏在概率背后的小优势,就需要你对这个问题有更深的理解。
如果某个特定的结果对你很重要,那么请分别考虑一下该结果成功和失败的可能性。近期我曾与一家非常成功的初创公司的首席执行官进行了交流,该公司已经过四轮数百万美元的融资,并拥有100名员工。他坦言道,从长期来看,自己和投资者的获利机会大约只有1/10。他每天花很长时间全身心地投入工作,但他同时也很清楚,自己目前拥有的这一切可能在一夜之间荡然无存。
我们会发现找到梦寐以求的工作和理想的伴侣都很困难,生活中总有你无法控制的因素。看到那些在面试后觉得自己做错了什么而捶胸顿足的人,我感到十分惊讶,这其实很可能只是由于当天面试的其他人表现得无可挑剔。请记住,走进办公室面试之前你只有20%的成功率,如果不是连续五次面试都不过,那就没什么理由对任何结果感到沮丧。 [5]
我们很难去量化浪漫,但我们也可以在这里使用概率原则。不要指望第一次约会就能碰见真命天子,如果你连续34次约会都失败,再花点儿时间反思一下自己也不迟。
确定了相关概率后,就要考虑它们与投资规模和潜在利润之间的关系。我提倡用概率思考问题并不是要你逆来顺受、认命并接受一切,也不是试图让你更加警觉。一个创业公司的首席执行官提出了成为下一个优步或爱彼迎的商业企划,它有1/10的成功机会,这个商业企划有可能建立一个价值100亿美元的公司。100亿除以10依然有10亿,这仍然是一笔巨大的预期利润。
从概率的角度考虑问题,需要你直面对你不利的可能性,更现实一些。在赛马和足球比赛中,不成熟的赌徒往往会高估小概率事件的发生概率,但在现实生活中,我们往往会低估小概率事件的发生概率。人们天生谨慎并且倾向于规避风险,但请记住,得到你真正喜欢的工作或找到自己喜欢的伴侣所带来的回报是巨大的。这意味着你需要冒很大的风险去追求预期目标。
*
数学需要付出努力和毅力。5分钟前,我读完了应用数学史上最杰出的论文之一,这篇论文价值10亿美元。即使我一开始就了解到该论文对数学素养的要求很高,但看到公式时,我还是感到比想象中更加困难。我跳过了这些公式,并告诉自己读完之后再来搞清楚推导过程,然后去读有趣的部分。
我刚提到的那篇论文是威廉·本特(William Benter)的《基于计算机的赛马预测和投注系统报告》。 [6] 这是一份宣言,从科学角度表达意向的声明。这个严谨的人显然对自己所做之事充满信心,他详细写下计划,再付诸实践,他要向全世界表明,他能取得成功绝不是因为运气,而是因为数学的确定性。
20世纪80年代末,威廉·本特开始横扫香港赛马场。在他开始这项计划之前,高赌注的赌博一直是骗子的乐土。这些骗子通常会在跑马地和沙田赛马场以及皇家香港赛马会附近徘徊,试图从马主、负责训练的员工和教练那里收集内部信息。他们会发现某匹马是否吃过早餐或秘密进行了额外的训练等。他们和骑师成为朋友,并向他们咨询比赛策略。
作为一名美国人,本特是这个赛马世界的局外人,但他想到了另一种获取内部信息的方法,这是骗子们不曾注意到的,尽管实际上它一直就躲在赛马俱乐部的办公室里。在两位秘书的帮助下,本特拿到了赛道年鉴的副本,于是,他将赛马成绩输入计算机。后来他告诉《彭博商业周刊》,他就是在那一刻取得了突破。他得到了最终赔率的数据,并将其数字化。正是这些赔率使本特能够采用一种类似于我向扬和马里乌斯展示的方法:利用公式投注。这是找出赌徒和情报贩子的预测中的不正确之处的关键。
本特没有止步于此。在上文中介绍的基本公式中,我仅仅确定了足球比赛赔率中的偏差。而现在,在仔细阅读了本特的论文之后,我开始理解本特是如何在如此长的周期内赢利的了。在我自己的模型中,我没有考虑影响比赛结果的其他因素。然而本特做的更多,他收集的数据包括每匹马过去的表现、距离上次比赛的时间、马的年龄、骑手的贡献、指定的跑道、当地的天气和许多其他因素,并将这些因素逐个添加到投注公式中。随着他考虑的细节越来越多,逻辑回归公式的准确性更高,预测结果也更精准。在输入了5人年的数据后,他的模型日趋完善。他在赌场通过算牌筹集到足够资金后,开始去跑马场下注。
在开始投注的前几个月,本特获得了50%的利润,但两个月后,这些利润又归零了。在接下来的两年中,本特的利润起伏不定,有时接近100%,但随后又下降到接近0。大约两年半后,该模型才真正开始获得回报,利润逐渐上升到200%、300%、400%,然后呈指数式增长。本特告诉《彭博商业周刊》,在1990—1991赛季,他的利润达到了300万美元。 [7] 据《彭博商业周刊》预计,在接下来的20年中,本特和少数使用相同方法的竞争对手从香港赛马场赢得的收入超过了10亿美元。
本特的科研论文最不可思议的一点不是它的内容,而是很少有人阅读这一事实。自发表以来的25年中,它被其他文章总共引用了92次。而我在15年前写的一篇有关霸王蚁如何选择新家的文章甚至还被引用了351次。
被忽视的不仅仅是本特的文章。本特在自己的文章中引用了露丝·博尔顿(Ruth Bolton)和兰德尔·查普曼(Randall Chapman)于1986年撰写的论文,并称之为“必读”论文 [8] ,这篇文章讲的是如何使用押注公式在美国赛马场中获利。然而,将近35年后,这篇启发性的论文被引用的次数还不到100次。
本特没有接受过高等数学方面的正规教育,但是对于他所从事的工作来说已经足够了。在其他人的描述里他被称为天才,但我不这么认为。在我的职业生涯中,我遇到了许多不是天才也并非数学家的人,他们都系统学习过本特所使用的统计方法。他们大多数不是赌徒,而是使用统计数据检验假设的生物学家、经济学家和社会学家,但是他们确实花了一些时间来理解数学。
第一次阅读那篇论文的时候我并没有理解其中的数学原理。实际上,只有为数不多的专业数学家能够轻松阅读和消化这些公式。通常来说,秘密就隐藏在这些细节里。
*
任何秘密组织面临的最大威胁都是被公之于众。光照会的成员认为世界事务都被精通技术的领导者所控制,其当代翻版 要求每个成员对他们的目标和方法保持沉默。如果某个人泄露了秘密或者计划,那么整个组织都将面临风险。
这种易于泄露的危险是大多数科学家不太相信光照会存在的主要原因,控制所有人类活动需要一个庞大的秘密组织和一个巨大的秘密。只要一个成员崩溃,就会带来全员的暴露,这个风险太大了。
但是随着我们深入研究投注公式,我们逐渐理解了拜十会的秘密是如何被隐藏的。只有当组织的成员坚持不懈地学习时,他们才会慢慢揭露其中的秘密。人们在学校中学习这个秘密,而且在大学的课程中得到延伸,只是我们都没意识到自己学习的到底是什么。拜十会的成员只是模糊地意识到他们是这一巨大组织的一部分,他们没有觉得自己隐藏了什么秘密,自然也没有需要坦白的东西。
一名年轻的拜十会成员在读了几遍本特的学术论文后,努力去理解其中的含义。她觉察到了一种联系,这种联系已经存在了好几个世纪。本特在研究露丝·博尔顿和兰德尔·查普曼的文章时肯定觉察到了同样的联系。同样,博尔顿和查普曼在研究戴维·考克斯的工作时也会有相同的感觉。考克斯在1958年提出了逻辑回归方法,为博尔顿、查普曼和本特的工作奠定了基础。继续往前追溯的话,就到了两次世界大战时的莫里斯·肯德尔和罗纳德·A.费希尔,以及18世纪生活在伦敦的亚伯拉罕·棣莫弗和托马斯·贝叶斯第一次提出了概率论,数学产生的联系贯穿了整个历史。
随着她逐渐深入研究细节,我们的年轻助教发现,所有秘密都隐藏在细节里,一步步地在她面前呈现出来。本特用公式的“密码”记录了他成功的起源,而在25年后的今天,年轻助教又从代数符号里重新感受到了那种成功。
所有这些公式的共同点是数学,它让我们穿过遥远的时空相遇。像她的前辈本特一样,她开始了解到通过隐藏在数据中的统计关系(而不是第六感)来投注的美妙之处。
*
在不使用公式的前提下,还有一种方法可以解释扬、马里乌斯和我提出来的投注策略。事实上,我用一句话就能解释其中的关键思想:我们发现世界杯的开场赔率(庄家在比赛开始前很久给出的赔率)比闭场赔率(庄家在比赛前一刻给出的赔率)能更好地预测结果。
这个结果是反直觉的。当庄家设定赔率时,开球前几周(或几个月)发生的事情存在很多不确定性。明星球员(比如埃及的穆罕默德·萨拉赫)可能会受伤,球队的状态可能不尽如人意(世界杯开赛前几周,法国队与美国队战平),或者可能在最后时刻更换主教练(如西班牙)。从理论上讲,这些事件的发生应该会导致赔率发生变化,如果西班牙队突然解雇主教练,其击败葡萄牙的赔率就会下降。
赔率的确变了,但是它们并不能反映真实情况,而是会矫枉过正。随着比赛的临近,业余赌徒涌入博彩市场并且开始下注,而庄家的赔率也会根据这些业余玩家所下的赌注发生变化。例如,法国队击败秘鲁的赔率原本为2/5,到第一场小组赛时则增至1/2。也许有些人会认为,如果法国队在世界杯开赛前的友谊赛里没能击败美国队,那么秘鲁可能在这场比赛中偷得1分甚至3分 。其他业余赌徒无疑读到了报纸对中场球员保罗·博格巴的批评,并开始质疑他带领国家队抱走大力神杯的能力。无论是什么原因,这正是我们的模型在前几届世界杯中发现了可以产生不错的收益的场景。当热门队的赔率增加时,支持热门队伍就会带来优势。我们的自动投注系统检测到赔率的变化,激活了投注功能,并且在法国队上下注50美元。而赛后我们的资产也确实变为75美元。这真是一个简单有效的策略!
应用数学家的一项重要技能是解释我们所使用模型背后的基本逻辑。在建立了模型后,我和马里乌斯边观看下午的足球比赛边讨论为什么随着世界杯比赛日的临近,赔率变得越来越不准确。
他告诉我:“我们的大多数交易策略都基于这样的想法,即越临近比赛,赔率越精确。但世界杯比赛一定有一些不同之处。”
我推测说:“主要是绝对投注量上有所不同。电视上每天都会播放很多足球比赛,在这些比赛里小赌一下也很有意思。有些人押注是出于民族自豪感,而另一些人则希望将自豪感押到另一个国家身上。”
马里乌斯认可了这一观点。世界杯为足球带来了新的观众群体,他们忍不住将钱花在自己支持的队伍上。可以设想一下,一位忠实的英格兰球迷可能会认为,投注法国队输会很有趣,这一考量也适用于阿根廷人和德国人在揭幕战中支持瑞士而不是巴西。随着大量的资金涌向较弱的球队,庄家加大了热门球队的赔率,而我们的模式则受益于逆市而动。并不是每一场比赛都能给我们带来收益,巴西一开场就意外战平瑞士,但历史表明,在开球前支持热门球队最有可能赚到钱。
业余参与者支持小概率事件带来的偏差只是我们模型的一部分。我们的公式提供了更细致的预测:α=1.16和β=1.25表明当没有非常强烈的偏好时,我们应该支持弱势队伍,我们在2014年英格兰输给乌拉圭的那场比赛中就看到了这一点。对哥伦比亚和日本的比赛的预测也比较准确。在比赛开始前的几天,哥伦比亚队获胜的赔率从7/10增长到8/9。将这些赔率代入我们的公式可以看出,押注日本是有道理的。这不是因为日本更有可能赢得比赛,哥伦比亚仍然是热门,而是投注公式表明,赔率为26/5的日本比哥伦比亚具有更好的投资价值。这一次我们赌对了,哥伦比亚输了,我们下了50美元的赌注,赢得了260美元。
*
戴维·考克斯爵士现年95岁 ,至今仍然没有停止研究。在长达80年的职业生涯中,他撰写了317篇学术论文,而且未来还有可能发表更多。在牛津大学纳菲尔德学院的办公室里,他撰写着现代统计学方面的评论和综述,并在他的领域中做出新的贡献。
我问他是否每天都去办公室。
“不是每天,周末不去。”他回答。
然后他停顿了一下,斟酌了一下措辞:“应该说我周末去办公室的可能性很小,但还是可能会去的。”
戴维·考克斯爵士做什么事都要求精确。他给我的回答是经过仔细考量的,并且总是会在力所能及的范围内给出他对此的置信水平。
考克斯率先发现了投注公式。他自己不会这么承认,而且这个说法也不完全准确。更精确的说法是他发展了逻辑回归理论,而我使用该理论找到了α和β的值,本特则用它来确定了哪些因素可以预测赛马的结果。 [9] 他发展出了能让投注公式做出更准确预测的统计方法。
逻辑回归诞生于“二战”后的英国。“二战”即将结束时,考克斯爵士在剑桥大学完成了数学的学习,然后被借调到英国皇家空军。后来,随着英国开始战后重建,他又转去从事纺织业。他告诉我,他最初的兴趣是抽象数学,但是这些经历使他对新挑战充满了期待。他说:“纺织业中充满了令人着迷的数学问题。”
虽然他对具体事件的记忆已有些模糊,但他对那些日子的热情却表露无遗。他谈到如何通过测试材料的各项特征来预测其破裂的可能性,以及如何用粗纺羊毛制造出更坚固、更均质的产品等。这些工业上的问题,再加上他在皇家空军遇到的有关空中事故频率和机翼空气动力学的问题,给了他很多思考的契机。
正是从这些实际问题出发,考克斯爵士提出了一个更为普遍的问题,也是一个更数学化的问题:当一个结果受多种因素的影响时,最佳的预测方法是什么(比如飞机失事是如何受风速影响的,或者毛毯是如何在应力应变的作用下被撕裂的)?这和本特对赛马所进行的调查属于同一类:根据一匹马的比赛历史和天气预测它获胜的概率。
“当我(于20世纪50年代中期)提出该理论时,大学里争议最大的问题来自分析医学和心理学的数据,这些数据被用来预测不同因素与医学结果之间的关系,”考克斯告诉我,“我通过结合我的实践经验和数学背景提出了逻辑回归,因此我应该可以用相似的数学函数解决医学、心理学和工业领域的不同问题。”
事实证明,这一族数学函数比戴维·考克斯想象的还要重要。从20世纪50年代在工业领域的应用到对医学试验结果的解释,逻辑回归已成功被应用于无数不同的问题。脸书现在使用这种方法来决定向我们展示哪些广告,声破天(Spotify)用这种方法来推荐音乐,同时这种方法还构成了自动驾驶汽车行人检测系统的一部分。当然,它也可以用于赌博……
我问过考克斯爵士他是否知道本特利用逻辑回归方法在赛马上取得的成功。他说没有听说过,于是我告诉他本特如何用逻辑回归获得了10亿美元的收益。接着我还告诉了他关于牛津大学学生马修·贝纳姆的情况以及他在预测足球比赛结果方面的成功经验。
“我希望你永远都不要赌博。”他这样告诫我,并停顿了很长时间。
然后,他平静地给我讲述了一个他听到的赌博故事,是关于20世纪50年代时他的一位同事的,他要求我永远不要泄密,我也遵守了诺言。
*
赌博并不是要预测未来,而是要找出你和他人看待世界方式的微小差异。如果你的视野比较清晰,如果你的参数可以更好地解释数据,你就拥有了优势。但也不要指望你的优势能马上显现,你需要一步步地试错,优化参数,才能逐步建立起优势,而且也不要指望一直赢。事实上,只有在你一遍又一遍地玩着这个游戏的时候,你才能赢得比输得多。
我们有时候喜欢去关注绝妙的想法。但是投注公式告诉我们,问题的关键在于创造不同的想法。想象一下,假如你要开一家瑜伽或者舞蹈教室,可以尝试对不同的群体播放不同的伴奏音乐,并记录哪种音乐效果最好。我们可以测试许多小点子,让它们像跑马场中的赛马一样相互竞争。在每次比赛结束时,我们都可以重新评估赢家和输家,从中发现与成功或失败相关的特征。
如果你想要尝试新点子,那么你可以使用数据科学中常用的AB测试方法。网飞在更新网站设计时,会创造两个或更多个版本(A、B、C等),展示给不同的用户,然后测试哪种设计的点击量最多。这是投注公式在确定设计特征成功还是失败方面的直接应用,通过涌向网飞的信息流,人们能够迅速了解到哪部分设计有用、哪部分没用。
你无须搞清楚逻辑回归背后的原理就能使用投注公式,但如果你掌握了调整参数、拟合数据的原理,再进一步去掌握逻辑回归方法就变得非常容易了。戴维·考克斯爵士告诉我,他相信大多数人都能够学会也应该学会如何使用他提出的方法。但如果只是为了理解你搜集的数据能揭示出什么,倒也无须掌握证明逻辑回归模型有效的数学机理。
*
世界杯期间,我看了很多场足球比赛,但是由于我没有按照赔率来买,所以我不知道精心计算的结果能否让我赚钱,我只是很享受比赛的过程。扬一次又一次地给我发送自动生成的电子表格,其中包含下注列表以及可能的收益或损失。我们在小组赛的第一轮赌输了,但是后来结果开始好转,随着比赛的进行,我们开始赢利。到世界杯结束时,我凭借总计1 400美元的赌注赢了近200美元,投资回报率为14%。
在研究了包含我们自己的数据的最新电子表格之后,我再次查看了收件箱中的消息,随着世界杯的进行,这些消息变得越来越绝望:“我知道你有预测比分的方法,请你帮帮我!”“我想参考一下你的预测,我已经输惨了。”“今天有一场大赌局,帮我赢点儿钱吧,有100来号人跟着我吃饭呢!”几乎每时每刻我都能收到这类消息。
我不禁想到我们正是从这些没多少钱的人身上赚取小额利润的。庄家当然是最大的赢家,但是扬、马里乌斯和我赚的是别人的钱,也许是从没多少积蓄的人那里赚取的。
那时,一个想法开始在我的脑海中浮现:了解公式与不了解公式的人之间的不平等不仅仅存在于赌博上。戴维·考克斯爵士的统计模型适用于现代社会的许多方面,从羊毛工业和飞机设计到现代数据科学和人工智能,数学发展推动了技术进步,并且成为技术的基础。这些进步只受到很小一部分人的控制:那些熟悉公式的人。在多数情况下,知道这些秘密的人因为擅长数学得到了社会地位和经济利益。
戴维·考克斯也是拜十会成员,但他自己可能并不清楚这一点。他创造了其中一个公式,另外9个公式他也能够完全掌握。因此他在拜十会中的地位是十分稳固的,而且是一位受人尊敬的最高等级的会员。
本特、贝纳姆和布鲁姆也是拜十会的一员,也许他们不像考克斯那样是通过正式的数学教育了解到这些公式的,但是他们理解这些原则,也知道如何将这些原则付诸实践。扬和马里乌斯也正在通往拜十会的路上。
至于我,我是从学者的角度知道这些公式的,但同时我也像本特一样清楚地知道如何在实际中使用这些公式。尽管我之前没有意识到这一点,但我现在知道了,拜十会定义了我,不仅塑造了我的工作方式,而且定义了我是什么样的一个人。
[1] 这篇文章发布在Medium平台上,可参见链接https://medium.com/@Soccermatics/if-you-had-followed-the-bettingadvice-in-soccermatics-you-would-now-be-very-rich-1f643a4f5a23。关于该模型的更确切描述可参见我的著作Soccermatics:Mathematical Adventures in the Beautiful Game(London:Bloomsbury Publishing, 2016)。
[2] 每次押注会使你的资本变为原来的1.000 3倍(此处的0.000 3会随着你每次押注而增加)。如果你每天押注100次,持续一年,那么你在年末时的期望资本会变为1 000×1.000 3 100×365 =56 860 593.80。
[3] 如果某个结果出现的投注赔率乘以该结果不出现的投注赔率等于1,那么庄家给出的赔率就是公平的。举个例子,如果热门球队获胜赔率为3/2,那么不被看好的那一方取得平局或者胜局的赔率必须等于2/3,因为 。但实际上,庄家永远不会给出一个公平的赔率,因此在上面的例子中,庄家更倾向于为被看好的那一方提供7/5的赔率,为不被看好的那一方提供4/7的赔率,因为 。在这个例子里,庄家的盈利为
[4] 你每次押注的期望收益为 ,也就是平均来说每押注一次会输掉4分钱。
[5] 即便失败了5次,你也不应该失望,如果每次面试有1/5的成功概率,那么你前5次面试都失败的概率为(1 - 1/5) 5 =33%。
[6] William Benter, ‘Computer based horse race handicapping and wagering systems : a report’, in Donald B.Hausch, Victor S.Y.Lo and William T.Ziemba (eds),Efficiency of Racetrack Betting Markets revised edn(Singapore:World Scientific Publishing Co.Pte Ltd, 2008), pp. 183-98.
[7] Kit Chellel, ‘The gambler who cracked the horse-racing code’, Bloomberg Businessweek,3 May 2018;at<https://www.bloomberg.com/news/features/2018-05-03/the-gambler-who-cracked-the-horse-racing-code>.
[8] Ruth N.Bolton and Randall G.Chapman, ‘Searching for positive returns at the track : a multinomial logit model for handicapping horse races’, Management Science 32(8)(August 1986):1040-60.
[9] David R.Cox, ‘The regression analysis of binary sequences’, 20(2) (1958) : 215-32.