购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.3 数据挖掘流程CRISP-DM

商业智能的核心能力是对商业数据的分析,这里的前提条件是,必须先有数据,才能进行分析。而数据挖掘,顾名思义,就是从众多数据中挖掘出有价值的数据并加以利用。所以商业数据分析的过程往往和数据挖掘密不可分。

分析师只有理解数据挖掘的理论和步骤,才能在实践中灵活地进行商业数据分析。

下面介绍业界普遍认可、使用范围较广的数据挖掘流程CRISP-DM,同时介绍如何使用Power BI/Tableau以帮助流程落地应用。

CRISP-DM(Cross-Industry Standard Process for Data Mining),即为“跨行业数据挖掘标准流程”。所谓跨行业,就代表通用性,其方法并非仅供IT人员、数据科学家专用,也适合不同行业的专业人士在挖掘商业价值时使用。

如图 1.3.1所示,CRISP-DM包含了6个步骤。下面简单介绍一下Power BI/Tableau在其中可以发挥的作用。

图1.3.1

1.3.1 第一阶段:商业理解

在商业理解(Business Understanding)阶段,分析师要从商业的角度了解项目的要求和具体要解决的问题,并思考如何从数据挖掘的角度定义和完成目标。商业角度的项目要求一般这样表述:通过广告推广令A产品在本年度的销售额增长10%,分析师需要了解哪些商业运作方式可能会帮助完成此目标,以及挖掘哪些数据可以带来价值。

本阶段要点为:

●定义商业需求

●评估现状

●定义数据挖掘的目标

●准备项目计划

Power BI/Tableau中提供了多种视觉图形,让分析师能够通过图形+数字的方式呈现商业问题及评估现状。此阶段需要分析师具有洞察力和创造力。

1.3.2 第二阶段:数据理解

数据理解(Data Understanding)阶段从初始的数据收集开始,分析师应熟悉数据及其内部属性,识别数据的质量问题和局限性,同时对于数据能否解决商业问题,是否需要更多的外部数据,如何估算成本等问题有较明确的认识。

本阶段要点为:

●收集数据

●描述数据

●识别及探索数据

分析师通过Power BI/Tableau可以将不同类型的多个数据源连接,在统一的界面下高效地进行数据理解,降低人力和时间成本。

1.3.3 第三阶段:数据准备

数据准备(Data Preparation)阶段包括从原始数据中构造最终数据集的所有活动,为建立模型做准备。这个阶段的任务有可能被执行多次,没有任何规定的顺序。任务包括表、记录和属性的选择,以及使用模型工具的转换和数据清洗。

本阶段要点为:

●选择数据

●清理数据

●结构化数据

●集成数据

●格式化数据

数据准备阶段是最耗时的一个阶段,有人认为数据分析过程中80%的时间都消耗在数据准备阶段。分析师通过Power BI中的“编辑查询”功能和Tableau中的“Tableau Prep”功能可以有效、快速地完成各种各样的数据准备任务:合并、删除、更正、拆分、类型转换等,再将处理完的数据无缝加载至数据模型中,分析师也能更好地集中精力在有价值的分析上。

1.3.4 第四阶段:建立模型

建立模型(Modeling)阶段的主要任务是建立数据与数据之间的关系并创建度量、选择KPI,各种各样的建模方法将被选择和使用。对于数据挖掘中相同的问题类型,可以选择多种分析方法。通过对比各种方法,评估模型及其参数将被校准为最优。如果建模方法对数据的形式有额外的要求,则有必要回到数据准备阶段重新调整数据。

本阶段要点为:

●选择技术

●设计测试

●建立模型

●评估模型

Power BI的“关系”功能是专为建模而设计的,其操作界面友好简单,无须使用代码即可完成,可以智能匹配数据表间的关系,用户也可以手动修改特殊关系。分析师通过DAX语言编写度量、KPI、计算列,就能直接使用Power BI完成商业逻辑表达。Tableau通过“联接”和“混合”功能共同完成数据表关系的搭建,其也拥有自己的查询语言系统以帮助完成多种复杂的商业逻辑表达。

1.3.5 第五阶段:模型评估

在到达模型评估(Evaluation)阶段时已经建立了高质量的模型,但在正式部署前,模型要经受更加全面的评估,以确保模型设计结果符合商业理解的目标,避免在将其直接部署后还要进行高成本的模型修改。如果发现模型与实际目标的确存在差距,则需要返回第一阶段商业理解,继续迭代,直到模型设计趋于完善为止。

本阶段要点为:

●评估结果

●复审流程

●制订部署计划

Power BI/Tableau的“分享”功能可以将完成的商业报表在线分享给用户以供评估。Tableau Server还有在线反馈功能,用户可以直接在线留言,给予及时的评估反馈,这个功能非常人性化。因为二者都是敏捷型BI工具,一旦发现模型有问题,分析师就可以快速在模型中更正,整个迭代过程十分高效、快速。

1.3.6 第六阶段:结果部署

结果部署(Deployment)阶段即是把挖掘结果以一定的方式呈现给用户。结果部署可以简单到仅写一份报告,也可以复杂到在企业中进行可重复的数据挖掘流程。在许多案例中,往往是由用户而非分析师来执行结果部署的。

本阶段要点为:

●部署步骤

●撰写报告

●发布结果

通过Power BI/Tableau,分析师可以将最终设计结果(包括模型代码)全部在线交付给用户,最终由用户自行完成结果部署。整个部署步骤也是相当直观、易于操作的。 lERsDryg0ckqMJM1rjI1ob8RNJJC4uZGGrEWx+NQ6EtZvgiTocuyjlwaH8JLEoUy

点击中间区域
呼出菜单
上一章
目录
下一章
×