购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

三、规避数据思维盲区

庄子说:“吾生也有涯,而知也无涯。”在知识无穷大而精力有限的前提下,“不是什么”比“是什么”更有用。我们以亚里士多德的三段论来说明:科学的有效性是有适用范围,数据思维属于科学范畴,那么数据思维也是有适用范围的。

那么,数据思维“不”适用范围的边界在哪里?

统计学是怎样“误导”我们的?

数据统计并不像我们想象的那样“客观”。

“伯克森悖论”:看不到=不存在?

“伯克森悖论”是美国医学和统计学家约瑟夫·伯克森在1946年提出的一个问题。如图所示,伯克森大夫对住院病人统计,发现胆囊炎和糖尿病有负相关性,但医学无法解释这种相关性。其实原因是样本采集“完美”忽略了未住院的人,而未住院的人正好是胆囊炎和糖尿病都不严重的样本。

上图:胆囊炎与糖尿病的相关性分析

类似的事情也发生在我们身边,如下图所示。

上图:性格与帅气程度相关性分析

某个漂亮女孩子宣称:“我遇到的男朋友,要么性格好但不太帅,要么比较帅但性格不好。”为什么会有这样的感觉?漂亮女孩子对男朋友的要求估计不会低,80分以下的“不太帅”或“性格不好”的样本就被有意无意忽略了。

“伯克森悖论”对应在心理学上,就是“可得性偏好”和“自我偏差”。说白了就是,管中窥豹,以自我为中心。

“辛普森悖论”:到底该信谁?

如果说“伯克森悖论”还容易为人理解,只是数据采集上出了问题,那么,“辛普森悖论”则烧脑的多。

拿广告营销做例子,现在有A和B两个推广渠道,如下表所示:

A渠道:154人注册,23人付费,则付费转化率是15.2%;

B渠道:128人注册,17人付费,则付费转化率是13.3%。

只看到这组数据,我们会倾向增加A渠道的投放。但是,当我们把用户分成男性和女性两个群组,分别统计如下:

A渠道:男性用户35人,其中付费4人,女性用户119人,其中付费19人;

B渠道:男性用户101人,其中付费12人,女性用户27人,其中付费5人。

奇怪的事情出现了:

A渠道:男性用户转化率是11.1%,女性用户转化率16.5%;

B渠道:男性用户转化率是11.9%,女性用户转化率18.5%。

A渠道在男性和女性两个分组的付费转化率均落后于B渠道!我们能理解的常识是:A比B的总体转化率高,那么,把A和B分成两组,那么对比其中一个组的转化率,A比B低是有可能的,而在另一组的转化率上,A应该会比B高。现在居然在两个组的转化率上,A均低于B!这不合“科学”啊!

用公式来表示:

P:总付费转化率=总付费用户数/总注册用户数;

α:权重系数=男性注册用户数/总注册用户数;

P m 、P f :男性与女性付费转化率,分别等于各组付费用户数除以各组注册用户数。

把渠道A组数据带入,即为

谜底揭穿,其实很简单:在保持P m 和P f 不变的前提下,调整α能够影响P。

试试看,把渠道A的女性用户数和付费人数同时乘10,则女性分组转化率不变,但A的整体付费转化率提升到了16.4%,与B的差距从2%增加到了3%。

美国两党很擅长玩这套“把戏”:通过选区区域的重新划分,调整区域内有色人种和白人比例,以此获得选举胜利。

休谟的致命问题:数据无法预测未来?

伯克森悖论和辛普森悖论还只是在数据统计层面上,展示了数据思维的盲区。而休谟则直接质疑了数据科学的根基,人类科学认知的支柱:归纳和因果。介绍本书又一位大神入场,大卫·休谟(David Hume,苏格兰哲学家),12岁进入爱丁堡大学,念到一半不念了,23岁写了本《人性论》。别的大神为人类开了一扇知识天窗,可休谟直接掀了房顶,团灭了科学家。“我看不见!看不见!就是看不见!”基本代表科学家们对休谟问题的态度。直到康德勉强支起了帐篷,算是救了大家伙儿。最令人崩溃的是:他只是写着玩的……

休谟提出了以下两个灵魂拷问:

(1)质疑归纳:切断空间连续性

归纳法是一种由个别现象到普遍规律的推理方法,由一定程度的关于个别事物的观点过渡到范围较大的观点,由特殊具体的事例推导出一般原理、原则的解释方法。但是,休谟却说:“从对个别事例的观察中无法引出普遍性的结论。”比如,人们认为全世界的天鹅都是白的,直到澳洲发现了黑天鹅。休谟的质疑直接切断了认知在空间上的连续性,不连续自然无从预测。

(2)质疑因果:切断时间连续性

休谟说:“我们无从得知因果之间的关系,只能得知某些事物总会连在一起。”再比如,火鸡天天得到了主人的悉心喂养,直到感恩节……因果关系是以时间先后次序为条件的。休谟继斩断空间连续性后,又一刀斩断了时间的连续性。

人类只能发现相关性,而不能证明因果,这也成了数据专家们应付质疑的御用挡箭牌。但这个挡箭牌让专家们得不到普通人的认可,因为,因果关系可以说是人类探索世界的根本目标,人类对于解释因果有难以遏制的渴望。

来看具备相关性,但不代表有因果关系的例子,如下图“相关性与因果关系”所示:

尽管这些例子看起来非常荒谬,但这种错误方法却会被有意无意的利用,充斥于媒体和我们身边。这需要我们具备一双看穿戏法的慧眼。

证明因果关系,又称“因果推断”,一直是统计学难题。比如证明某个药品是否对疾病的治疗有效,最常见的方法是“大样本双盲对照实验”。为什么西医药品这么贵?原因就是用人体做大样本双盲测验,投入是海量的金钱和时间,当然一旦成功,回报也是海量的。对照西医,中药是中国古代朴素的不完全归纳法的典型应用案例。

德鲁克的回答:够用就好!

既然休谟质疑了空间和时间的连续性,那么,从个别和旧的数据得不到普遍的结论,更难以证明因果关系,那么我们还能依据数据做决策吗?休谟问题一直困扰着我,因为无解,所以采取了鸵鸟策略:反正数据科学够用就行,管它休谟不休谟。这种情况持续直到我看到了德鲁克的话。德鲁克与休谟有类似的看法:“不要预测未来,因为未来无法预测。”但他认为:

“要把握已经发生的未来,决策是为未来做准备。”这句话足以作为所有数据从业者和相关人士的箴言。虽然用数据不能预测未来,但是可以用最短的时间把握正在发生的变化,用最短的时间做出对应决策,如量化投资。

内心呼唤与数据辅助

从这一节的讲述能看出,数据思维不是万灵丹药,理解数据思维不能做什么,甚至比直到数据思维能做什么更重要。因此,内心决定方向,人生大事不是算出来的,俗话说“有钱难买我喜欢”。苹果CEO库克说:“我最重大的决定,比如进入苹果,都是相信直觉,而不是分析。”

尽管如此,数据思维依然是辅助人类做重大决策的好帮手。

(1)数据思维是剪刀。 它剪掉盲目和一时冲动,通过评估风险和预测代价来检验你的决心。如果数据不支持,而你依然坚持你的选择,那说明你选择了真爱;如果动摇了就再想想。好比结了婚再离婚,损失就大了去了。

(2)数据思维是计算器。 它帮助你预测成功概率,成功从来都是低概率事件,愚勇只会雪上加霜,帮你衡量对比各条路径的可行性。这就像赵传的《我很丑,但我很温柔》所唱,“计算着梦想和现实之间的差距”。

(3)数据思维是指南针。 它就像你在恋爱时候的长辈和好朋友,能给提供宝贵的建议。当你做出了决定之后,也依然帮助你寻找机会,修正路径,避免无法承受的伤害。

总之一句话: 定方向听从内心召唤,走长路善用数据辅助。 VNCczIY5MDmU2NZDROLU8xXJ6z7naW8muC2lWMGz2ramuWNmRmYCdpsOCImG3ldq

点击中间区域
呼出菜单
上一章
目录
下一章
×