购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.2
数据挖掘的过程方法

数据挖掘是一个复杂过程,需要一个明确方法有序有效地组织这个过程。早期有SPSS提出的5A(Assess,Access,Analysis,Act,Automae)模型,SAS提出的SEMMA(Sample,Explore,Modify,Model,Assess)模型,1998年NCR(Teradata从NCR脱离出来)、Clementine(1998年被SPSS收购)、OHRA和Daimler-Benz联合项目组提出了CRISP-DM(Cross-Industry Standard Process for Data Mining),分为业务理解(Business Understanding)、数据理解(Data Understanding)、数据准备(Data Preparation)、模型建立(Modeling)、模型评估(Evaluation)、模型部署(Deployment)6个阶段,它已经成为目前的事实标准 [4] 。2016年微软提出的TDSP(Team Data Science Process)将数据挖掘分为业务理解、数据获取与理解、建模、部署、用户接受5个阶段。这些方法框架与CRISP-DM基本思想一致,下面重点介绍CRISP-DM方法。

1.2.1 CRISP-DM简介

CRISP-DM是一种被广泛采用的数据挖掘分析方法框架,它认为数据挖掘是如图1-7所示的业务理解、数据理解、数据准备、模型建立、模型评估、模型部署6个阶段的迭代过程。和一般的IT项目不同,分析项目的不同阶段之间存在很强的迭代关系。

图1-7 CRISP-DM方法

1)业务理解:这一初始阶段集中在从业务角度理解项目的目标和要求,然后把理解转化为数据挖掘问题的定义和一个初步执行计划。狭义的业务理解指的是理解业务部门或业务分析师提出的业务问题,广义的业务理解还包括数据分析师主动发掘和定义问题。广义的业务理解对数据分析师的要求非常高,不仅要有整体技术研判力(可行性、技术难度、关键技术点),还要有业务洞察力,可以定义出可执行有价值的好问题。

2)数据理解:始于原始数据的收集,然后熟悉数据,标明数据质量问题,对数据进行初步探索和理解,发掘值得关注的数据子集以形成对隐藏信息的假设。

3)数据准备:包括从原始数据集到最终数据集的所有活动。数据准备任务可能迭代多次,而且不存在一成不变的顺序。这些任务包括数据的整合、选择、清洗、特征加工。

4)模型建立:主要是分析算法选择、超参数调优和模型融合。在做的过程中,通常会发现新的数据质量问题,因此,常常需要返回到数据准备阶段。

5)模型评估:进入这个阶段时,已经建立了一个或多个相对可靠的模型。在模型最后发布前,需要更彻底地评估模型和检查建立模型的各步骤,从而确保它真正达到了业务目标和落地应用条件。此阶段的关键目的是检查是否忽略了一些重要的业务场景。关于数据挖掘模型是否可用的决定应该在此阶段确定下来。

6)模型部署:模型的建立并不是项目的结尾,通常需要以业务应用的形式发布和部署模型。即使建模仅是为了增加对数据的了解,所获得的洞察通常也需要以一种客户能够理解的方式呈现出来。

CRISP-DM对每个阶段的活动做了细化 [5] ,使其成为一个具有指导性的方法论,如图1-8所示。即便如此,对于特定领域的数据分析来说,我们也需要在CRISP-DM方法论的基础上,加入领域特征,细化活动内容,实例化交付物,明确侧重点,使其成为在特定领域内具有可操作性的方法论。

图1-8 CRISP-DM每个阶段的执行内容

在最后,也简要提一下CRISP-DM的缔造者之一Tom Khabaza总结的数据挖掘9大定律:①Business Goals Law:每个数据挖掘解决方案的根源都是有业务目标的;②Business Knowledge Law:数据挖掘过程的每一步都需要以业务或领域信息为中心;③Data Preparation Law:数据准备与处理是数据挖掘的基础,其工作量通常占数据分析过程50%以上;④No Free Lunch Law(没有免费午餐):做到极致后,提高一个指标必然会牺牲另外一个指标,或者说,任何模型都是有适用前提的;⑤Watkins’Law:在数据的世界里,总是有模式可循的,找不到规律不是因为规律不存在,而是因为还没有发现它;⑥Insight Law:数据挖掘可以有效发现单纯人工很难发现的信息与规律,辅助领域专家从业务角度的解读和决策;⑦Prediction Law:基于数据驱动方法的统计泛化能力,预测结果增加了样本的局部信息;⑧Value Law:数据挖掘模型再精准,没有业务应用也是没有价值的;⑨Law of Change:不存在一成不变的模式,一定要不断关注训练出的模型的有效性。上面这9条其实归根到底就是业务逻辑决定数据挖掘。纯粹为了追求高深的数据挖掘算法技术,而忽略了业务目的、业务应用的做法是本末倒置。

1.2.2 分析课题的执行路径

课题成熟度的差异和分析师经验知识体系的差异,使得不同项目在CRISP-DM的“业务理解”环节中差异很大,在执行中具体体现为3类典型场景。

1)业务规划类:只有一个大概的业务愿景或目标,如用大数据提高产品质量、用大数据构建精加工工业互联网(对第三方开放自己的精加工能力)。此时需要业务分析师与客户一起从业务角度分解业务愿景,并将其归结为若干个数据分析问题。

2)业务问题理解类:有明确的业务需求(如备件需求预测)。这时我们需要将组织结构、业务流程、典型的业务场景(如促销、囤货、地区公司合并等)等业务上下文信息进行细化与理解。

3)数据分析问题定义类:有些问题不涉及业务上下文,如监控图像识别。这时只需要将业务期望(如检出率、误报率、处理速度等要求)确认清楚即可。

在工作量上,“业务理解”和“数据准备”往往会占用75%以上的时间。很多分析问题的定义需要在迭代中不断理清;Data Schema(数据模式)层面的数据预处理(包括数据类型及值域检查、数据集的合并等)通常比较简单,但业务语义上的数据质量问题只能在数据探索和建模过程中不断被发现。

在经典的CRISP-DM方法中,假设分析课题是给定的,“业务理解”只是对该课题的业务背景和含义进行理解。但很多数据分析项目并不是这样,它们需要分析人员根据业务需求不断细化和定义,这在工业大数据领域更为普遍。工业数据分析常常出现知识严重二分的情形。数据分析师对工业过程缺乏深入了解,而业界人员对数据分析的了解相对缺乏,需要一种好的方法把两个领域结合起来,以定义一个有价值且可落地的数据分析课题。

典型工业问题的定义的方法在《工业大数据分析实践》 [2] 一书中有详细的论述,另外,还对CRISP-DM方法的6个步骤在工业领域的应用做了细化,如图1-9所示,可以看出系统运行机理和业务场景在工业数据分析中的重要程度。为避免内容的重复,这里不再赘述。

图1-9 CRISP-DM方法论在工业领域中的细化 dstWyfugvjRQqlrGlNsiwVhy2YQY7VAOWLvsCcyFQ8iLytCQ5lU6jCQ+95D4jF8a

点击中间区域
呼出菜单
上一章
目录
下一章
×