购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

一、指标维度体现数据思维本质

从西方哲学到数据科学

追寻数据思维的本质必然要谈到数据科学,而数据科学实在是从西方哲学演化至今。亚里士多德的形式逻辑是西方哲学、数学和现代科学的基石。讲形式逻辑的中国第一人是金岳霖先生,清华大学哲学系创始人,后任清华文学院院长。说来惭愧,原来我只知道金先生是林徽因先生的蓝颜知己,一往情深,终生未娶。因写这个部分才查到,金先生原来是这么厉害。解放后,中国高校受苏联影响不讲形式逻辑,而讲辩证逻辑(我直到考GRE,才接触逻辑)。

科学是人类认知世界的有效方法,从形式逻辑直到科学归纳法,分为演绎和归纳两类,互为里表。形式逻辑是演绎的基石,缺了形式逻辑,科学也就缺了一条腿。李约瑟问:“为什么科学和工业革命没发生在中国?”以上观点代表我对李约瑟之问的粗浅回答。下面会讲到,中国古代数据思维采用质朴的不完全归纳法,可侧面印证我的观点。

逻辑基石与科学方法结合,形成了人类知识积累的“认知科学化”过程。

在哲学和现代科学的基础上,数学、统计学、计算机科学一直在尝试把人类的逻辑思考过程进行数字化模拟,即“逻辑数字化”。最终人类拥有了今天的人工智能和机器学习。如下图所示:

上图:从形式逻辑到机器学习

我们再来对照看看中国古代的数据思维模式。

中国古代的数据思维模型:周易

为什么会有钱学森之问与李约瑟之问?这跟中西哲学的核心差异相关。辩证逻辑用在人生社会很好使,八面玲珑,兼容并蓄。科学研究较依赖的是形式逻辑中的演绎法。中国古代缺乏演绎法所需的基石“形式逻辑”,来做认知的底座。缺了这块基石,中国的科学发明均凭借经验和运气,没有系统框架,也无法拓展和传承。

中国数据思维可归为质朴的不完全归纳法,无法证伪,也无意证伪。尽管如此,中国数据思维存在明显优势:效率高,兼容并蓄,“拿来主义”,“黑猫白猫抓到耗子就是好猫!”五千年灿烂且未中断文明为此背书。中国古代也有四大发明和中医,但都归功于质朴的不完全归纳法。硬币有正反面,李约瑟之问有道理,对中国有意义,但未必有对错。

在不完全归纳法体系下,中国古代也孕育出优秀的数据思维模型——易经。

2020年初疫情爆发,坐困愁城,培训咨询项目都泡汤,俺这小树苗刚爬出创业失败的坑,就遇上了雹子雨。我们这一代人已经习惯了明天会更好,习惯了增量思维,现在忽然发现原来事务发展并不是连续的(休谟问题,后面会讲到),心里慌得不行不行的。时间和空间具备连续性,是所有数据分析预测未来的隐含前提条件。周易的出现满足了古人希望能掌握规律,预测未来的强烈需求。

百无聊赖,我就想占卜一下今后的事业运势。当然这不是宣扬迷信,只是用周易来解释数据思维的核心理念。

首先起卦,把三枚乾隆通宝(某宝上淘的)合于手心,默想要预测的事情,撒六次,从下到上记在纸上。

汉字是正面,满文是反面,记录规则如下:

一反两正,画作“ ”为少阳;

两反一正,画作“ ”为少阴;

三个反面,画作“ O”为老阳;

三个正面,画作“ X”为老阴。

主卦占得了一个“否”字,否极泰来的否,又称天地否,乾上坤下(见下图)。卦辞是“陷入逆境,事业处于衰退阶段。受小人干扰而不得志。应团结志同道合者,自保以待时机。”主卦代表事务现在的情况。

哭了……今年要凉凉啊!

且慢,主卦还有变化:老阴(三个反面)和老阳(三个正面)都要各自变化为少阳和少阴,体现了古人“阳极生阴,阴极生阳”天道循环的朴素哲学观,变卦意味着未来的发展变化,“变卦”这个词就是来源于此。

O”变为“

X”变为“

“否”字变成了“益”字:风雷益,巽(风)上震(雷)下(把巽和震颠倒就是“损”),上上卦。

上图:周易数据建模

卦辞是:

时来运转福气发,

枯木逢春再开花。

枝叶重绿多茂盛,

人人见了人人夸。

欧耶!心情立刻好转,再转念更想开了:幸亏前一年结束了创业,没有负担。

书归正传,主卦、变卦和卦辞分别对应了数据思维的三个核心要素:

(1)构成因素 ——对事务进行了量化,用数字0和1作为事务的构成因素。

(2)关联规律 ——通过“老阴生少阳,老阳生少阴”的来揭示事物变化的内在规律。

(3)未来预测 ——通过对卦象转为卦辞的过程,把抽象符号解释为可理解语言,预测未来,指导决策。

数据思维本质

结合周易来看数据思维定义(摘自维基百科):

“一种通用思维模式,从以下过程中观察获得:

(1)选择 初始主体

(2)确定该主体的 组成因素

(3)用能 关联动因 的信息化形式来组织和描述。”

北大光华商务统计与经济计量系的王汉生老师曾说:“所有的数据分析和算法模型的本质都可以用Y= F(X)来表示。”以上三个要素“初始主体”“组成因素”和“关联动因”分别对应Y,F和X,即是指标体系的核心三要素,各自与周易做对照如下:

(1)Y对应的是卦辞,表示对未来的预测;

(2)X对应的是主卦,表示对现在的描述;

(3)F对应的是变卦,表示变化的内在规律。

上图:核心三要素对应关系

核心三要素与易经文王六十四卦展现的“构成因素”“变化规律”和“未来预测”一一对应,构成了最简练的指标体系。

因此,Y= F(X)可以写成我们更便于理解的形式:Y 指标 =F 关联 (X 维度 )。分别说明如下:

(1)指标体现的是已经发生的结果,也是我们希望预测和改善(提升或者降低)的目标或者如维基所说的“初始主体”。这个目标该怎样用数字来衡量?这两个问题的答案就是指标,也被称为“因变量”。

(2)维度是影响指标的因子,你认为哪个数据的变化有可能对指标产生影响?那么,这个数据就是维度,维度也被称为“特征”(feature)或者自变量。

(3)关联是指标与维度之间的映射关系。在可视化分析中,图表被用来展示指标与维度的关系?再考虑指标和维度各自是连续型还是离散型,就决定了用哪种图表。

Y 指标 =F 关联 (X 维度

为了更好的理解指标与维度的区别和关联,我们看看在商业数据分析中常见的指标和维度,如图所示:

上图:商业数据分析模型

指标,体现的是客户消费行为结果。

维度,可以理解成客户的基础数字画像,主要包含的是客户的统计属性。

关联,可以解释为双向的映射:某类的客户有什么样的消费行为?某类的消费行为是什么样的客户产生的?

商业数据分析就是发现这个双向映射关系,借此提高获客精准度和客单价。

这个模型听起来似乎很合理吧?长期以来业界也基本接受这个逻辑。

但是就算你是我最熟悉的朋友,你就能预测我会买什么东西吗?这个模式的漏洞就是“归因谬误”,即人们常常把他人的行为归因于人格或态度等内在特质上,而忽略他们所处情境的重要性。因此个体维度外,建模分析时还要考虑情境,即增加时间、地点和社群关系等新自变量辅助精确归因,这是个行业难题。这个模型有个隐含前提:经济决策的过程是理性的。2002年诺贝尔经济学奖得主丹尼尔·卡内曼认为这个假设不成立,他将心理学的“内在激励决定行为”引进了决策理论。

但情景和心理因素存在难以量化的障碍,因此,该商业数据分析模式依然被公认是可行和相对有效的。

建议大家牢记这个公式,它会在后文反复出现,串联起全书的核心脉络,重要的事情说三遍:

Y 指标 =F 关联 (X 维度

Y 指标 =F 关联 (X 维度

Y 指标 =F 关联 (X 维度

案例:阿普伽评分表

指标、维度与关联组成的数据思维方式显示了强大而又无形的力量,比如阿普伽评分表。

本书第一位天使出场:美国的阿普伽医生。20世纪中期,美国每30个新生儿出生,就有1个夭折。阿普伽医生是位麻醉师,在给产妇麻醉时发现:很多出生有畸形、或只是身上发青、呼吸不太正常的婴儿都被列为“死胎”。这种情况长期存在,医学界束手无策。她想到了一个简单得令人难以置信的办法,只用一张图表,挽救了千千万万条性命。

上图:阿普伽评分表

阿普伽评分表的核心思想是对新生儿健康程度量化为指标,根据指标采取有针对的治疗手段。指标由五个维度评分相加构成:新生儿的心率、呼吸、肌张力、喉反射和皮肤颜色,共五项体征。每项评分从0至2分,总和满分为10分。

把阿普伽评分表转化为“Y 指标 =F 关联 (X 维度 )”的形式,即新生儿健康度=皮肤分+心率分+喉反射分+肌张力分+呼吸分。

阿普伽评分表1950年开始推广,经过了二十年,美国新生儿死亡率下降了40%。阿普伽评分表不像产钳,既看不见也摸不着,但却同样拯救母子生命无数。这就是数据决策的强大力量!阿普伽评分表的方法原理还能有更广阔的应用,比如后文的RFM。

案例:普惠金融风险指标

如果说阿普伽评分表跟我们的世界离的有些远,那么,再说一个金融行业的指标体系案例。中小微企业融资难是世界难题,原因是:

(1)中小微企业规模小,成本高,效益差,信用风险大。信息披露不够,金融机构无法了解企业真实情况。

(2)银行倾向抵押担保贷款,而中小微企业资产存量较低,且经济下行让信用担保贷款更难获得。

银行不愿意贷款给中小微企业的根本原因是:传统信用风控与评级方法过分依赖财报和贷款历史记录,银行要想满足中小微企业融资需求,需要付出比大企业贷款更高的风控成本。传统信用评级方法依赖财报和贷款历史记录,难以满足中小微企业融资需求。

上图:普惠金融风险指标

能更真实反映企业经营状况的就是政务数据,如水电气、海关、人社、住建、税务等。为解决“融资难”和“融资贵”难题,政府成立了金融服务平台来撮合企业与金融机构的融资交易,并对金融机构开放企业的政务数据。政务数据与原有的经营和财务数据融合,形成具有政府特色的普惠金融风险指数,帮助金融机构选择优秀企业。

小结:从本质到方法

数据思维本质直到方法,整体呈现严谨的串联加并联的矩阵框架。数据思维核心三要素是:X维度、F关联和Y指标,如下图所示。

核心三要素分别对应了数据挖掘的三大阶段:描述现状、分析规律和决策未来。

再分别对应了三类数据分析技术:描述性分析、相关性分析和预测性分析。

这三类数据分析方法又分别对应:

(1)可视化分析方法,如关系、时间、结构和分类等;

(2)统计学,如相关系数、方差和卡方检验等基础知识;

(3)机器学习算法。

前两大类知识构成本书主要内容。

上图:数据分析方法框架 Pu5+XEcd2NmzEY9s5a+jS+NpS+L0MQjpX3K11NU5+OJzT7DddzfMthu2zxgwjoWN

点击中间区域
呼出菜单
上一章
目录
下一章
×