数字化整型大师最新章节_曾涛著

一、指标维度体现数据思维本质

从西方哲学到数据科学

追寻数据思维的本质必然要谈到数据科学，而数据科学实在是从西方哲学演化至今。亚里士多德的形式逻辑是西方哲学、数学和现代科学的基石。讲形式逻辑的中国第一人是金岳霖先生，清华大学哲学系创始人，后任清华文学院院长。说来惭愧，原来我只知道金先生是林徽因先生的蓝颜知己，一往情深，终生未娶。因写这个部分才查到，金先生原来是这么厉害。解放后，中国高校受苏联影响不讲形式逻辑，而讲辩证逻辑（我直到考GRE，才接触逻辑）。

科学是人类认知世界的有效方法，从形式逻辑直到科学归纳法，分为演绎和归纳两类，互为里表。形式逻辑是演绎的基石，缺了形式逻辑，科学也就缺了一条腿。李约瑟问：“为什么科学和工业革命没发生在中国？”以上观点代表我对李约瑟之问的粗浅回答。下面会讲到，中国古代数据思维采用质朴的不完全归纳法，可侧面印证我的观点。

逻辑基石与科学方法结合，形成了人类知识积累的“认知科学化”过程。

在哲学和现代科学的基础上，数学、统计学、计算机科学一直在尝试把人类的逻辑思考过程进行数字化模拟，即“逻辑数字化”。最终人类拥有了今天的人工智能和机器学习。如下图所示：

上图：从形式逻辑到机器学习

我们再来对照看看中国古代的数据思维模式。

中国古代的数据思维模型：周易

为什么会有钱学森之问与李约瑟之问？这跟中西哲学的核心差异相关。辩证逻辑用在人生社会很好使，八面玲珑，兼容并蓄。科学研究较依赖的是形式逻辑中的演绎法。中国古代缺乏演绎法所需的基石“形式逻辑”，来做认知的底座。缺了这块基石，中国的科学发明均凭借经验和运气，没有系统框架，也无法拓展和传承。

中国数据思维可归为质朴的不完全归纳法，无法证伪，也无意证伪。尽管如此，中国数据思维存在明显优势：效率高，兼容并蓄，“拿来主义”，“黑猫白猫抓到耗子就是好猫！”五千年灿烂且未中断文明为此背书。中国古代也有四大发明和中医，但都归功于质朴的不完全归纳法。硬币有正反面，李约瑟之问有道理，对中国有意义，但未必有对错。

在不完全归纳法体系下，中国古代也孕育出优秀的数据思维模型——易经。

2020年初疫情爆发，坐困愁城，培训咨询项目都泡汤，俺这小树苗刚爬出创业失败的坑，就遇上了雹子雨。我们这一代人已经习惯了明天会更好，习惯了增量思维，现在忽然发现原来事务发展并不是连续的（休谟问题，后面会讲到），心里慌得不行不行的。时间和空间具备连续性，是所有数据分析预测未来的隐含前提条件。周易的出现满足了古人希望能掌握规律，预测未来的强烈需求。

百无聊赖，我就想占卜一下今后的事业运势。当然这不是宣扬迷信，只是用周易来解释数据思维的核心理念。

首先起卦，把三枚乾隆通宝（某宝上淘的）合于手心，默想要预测的事情，撒六次，从下到上记在纸上。

汉字是正面，满文是反面，记录规则如下：

一反两正，画作“ ”为少阳；

两反一正，画作“ ”为少阴；

三个反面，画作“ O”为老阳；

三个正面，画作“ X”为老阴。

主卦占得了一个“否”字，否极泰来的否，又称天地否，乾上坤下（见下图）。卦辞是“陷入逆境，事业处于衰退阶段。受小人干扰而不得志。应团结志同道合者，自保以待时机。”主卦代表事务现在的情况。

哭了……今年要凉凉啊！

且慢，主卦还有变化：老阴（三个反面）和老阳（三个正面）都要各自变化为少阳和少阴，体现了古人“阳极生阴，阴极生阳”天道循环的朴素哲学观，变卦意味着未来的发展变化，“变卦”这个词就是来源于此。

“ O”变为“ ”

“ X”变为“ ”

“否”字变成了“益”字：风雷益，巽（风）上震（雷）下（把巽和震颠倒就是“损”），上上卦。

上图：周易数据建模

卦辞是：

时来运转福气发，

枯木逢春再开花。

枝叶重绿多茂盛，

人人见了人人夸。

欧耶！心情立刻好转，再转念更想开了：幸亏前一年结束了创业，没有负担。

书归正传，主卦、变卦和卦辞分别对应了数据思维的三个核心要素：

（1）构成因素 ——对事务进行了量化，用数字0和1作为事务的构成因素。

（2）关联规律 ——通过“老阴生少阳，老阳生少阴”的来揭示事物变化的内在规律。

（3）未来预测 ——通过对卦象转为卦辞的过程，把抽象符号解释为可理解语言，预测未来，指导决策。

数据思维本质

结合周易来看数据思维定义（摘自维基百科）：

“一种通用思维模式，从以下过程中观察获得：

（1）选择初始主体；

（2）确定该主体的组成因素；

（3）用能关联动因的信息化形式来组织和描述。”

北大光华商务统计与经济计量系的王汉生老师曾说：“所有的数据分析和算法模型的本质都可以用Y= F（X）来表示。”以上三个要素“初始主体”“组成因素”和“关联动因”分别对应Y，F和X，即是指标体系的核心三要素，各自与周易做对照如下：

（1）Y对应的是卦辞，表示对未来的预测；

（2）X对应的是主卦，表示对现在的描述；

（3）F对应的是变卦，表示变化的内在规律。

上图：核心三要素对应关系

核心三要素与易经文王六十四卦展现的“构成因素”“变化规律”和“未来预测”一一对应，构成了最简练的指标体系。

因此，Y= F（X）可以写成我们更便于理解的形式：Y _指标＝F _关联（X _维度）。分别说明如下：

（1）指标体现的是已经发生的结果，也是我们希望预测和改善（提升或者降低）的目标或者如维基所说的“初始主体”。这个目标该怎样用数字来衡量？这两个问题的答案就是指标，也被称为“因变量”。

（2）维度是影响指标的因子，你认为哪个数据的变化有可能对指标产生影响？那么，这个数据就是维度，维度也被称为“特征”（feature）或者自变量。

（3）关联是指标与维度之间的映射关系。在可视化分析中，图表被用来展示指标与维度的关系？再考虑指标和维度各自是连续型还是离散型，就决定了用哪种图表。

Y _指标 =F _关联（X _维度）

为了更好的理解指标与维度的区别和关联，我们看看在商业数据分析中常见的指标和维度，如图所示：

上图：商业数据分析模型

指标，体现的是客户消费行为结果。

维度，可以理解成客户的基础数字画像，主要包含的是客户的统计属性。

关联，可以解释为双向的映射：某类的客户有什么样的消费行为？某类的消费行为是什么样的客户产生的？

商业数据分析就是发现这个双向映射关系，借此提高获客精准度和客单价。

这个模型听起来似乎很合理吧？长期以来业界也基本接受这个逻辑。

但是就算你是我最熟悉的朋友，你就能预测我会买什么东西吗？这个模式的漏洞就是“归因谬误”，即人们常常把他人的行为归因于人格或态度等内在特质上，而忽略他们所处情境的重要性。因此个体维度外，建模分析时还要考虑情境，即增加时间、地点和社群关系等新自变量辅助精确归因，这是个行业难题。这个模型有个隐含前提：经济决策的过程是理性的。2002年诺贝尔经济学奖得主丹尼尔·卡内曼认为这个假设不成立，他将心理学的“内在激励决定行为”引进了决策理论。

但情景和心理因素存在难以量化的障碍，因此，该商业数据分析模式依然被公认是可行和相对有效的。

建议大家牢记这个公式，它会在后文反复出现，串联起全书的核心脉络，重要的事情说三遍：

Y _指标 =F _关联（X _维度）

案例：阿普伽评分表

指标、维度与关联组成的数据思维方式显示了强大而又无形的力量，比如阿普伽评分表。

本书第一位天使出场：美国的阿普伽医生。20世纪中期，美国每30个新生儿出生，就有1个夭折。阿普伽医生是位麻醉师，在给产妇麻醉时发现：很多出生有畸形、或只是身上发青、呼吸不太正常的婴儿都被列为“死胎”。这种情况长期存在，医学界束手无策。她想到了一个简单得令人难以置信的办法，只用一张图表，挽救了千千万万条性命。

上图：阿普伽评分表

阿普伽评分表的核心思想是对新生儿健康程度量化为指标，根据指标采取有针对的治疗手段。指标由五个维度评分相加构成：新生儿的心率、呼吸、肌张力、喉反射和皮肤颜色，共五项体征。每项评分从0至2分，总和满分为10分。

把阿普伽评分表转化为“Y _指标 =F _关联（X _维度）”的形式，即新生儿健康度＝皮肤分＋心率分＋喉反射分＋肌张力分＋呼吸分。

阿普伽评分表1950年开始推广，经过了二十年，美国新生儿死亡率下降了40%。阿普伽评分表不像产钳，既看不见也摸不着，但却同样拯救母子生命无数。这就是数据决策的强大力量！阿普伽评分表的方法原理还能有更广阔的应用，比如后文的RFM。

案例：普惠金融风险指标

如果说阿普伽评分表跟我们的世界离的有些远，那么，再说一个金融行业的指标体系案例。中小微企业融资难是世界难题，原因是：

（1）中小微企业规模小，成本高，效益差，信用风险大。信息披露不够，金融机构无法了解企业真实情况。

（2）银行倾向抵押担保贷款，而中小微企业资产存量较低，且经济下行让信用担保贷款更难获得。

银行不愿意贷款给中小微企业的根本原因是：传统信用风控与评级方法过分依赖财报和贷款历史记录，银行要想满足中小微企业融资需求，需要付出比大企业贷款更高的风控成本。传统信用评级方法依赖财报和贷款历史记录，难以满足中小微企业融资需求。

上图：普惠金融风险指标

能更真实反映企业经营状况的就是政务数据，如水电气、海关、人社、住建、税务等。为解决“融资难”和“融资贵”难题，政府成立了金融服务平台来撮合企业与金融机构的融资交易，并对金融机构开放企业的政务数据。政务数据与原有的经营和财务数据融合，形成具有政府特色的普惠金融风险指数，帮助金融机构选择优秀企业。

小结：从本质到方法

数据思维本质直到方法，整体呈现严谨的串联加并联的矩阵框架。数据思维核心三要素是：X维度、F关联和Y指标，如下图所示。

核心三要素分别对应了数据挖掘的三大阶段：描述现状、分析规律和决策未来。

再分别对应了三类数据分析技术：描述性分析、相关性分析和预测性分析。

这三类数据分析方法又分别对应：

（1）可视化分析方法，如关系、时间、结构和分类等；

（2）统计学，如相关系数、方差和卡方检验等基础知识；

（3）机器学习算法。

前两大类知识构成本书主要内容。

上图：数据分析方法框架