Power BI的功能十分强大且易上手。但是要挖掘出数据的价值,除有好的工具外,还需要有正确的数据挖掘理论指引。下面介绍在Power BI报表开发过程中可以指导数据挖掘的方法论,供读者参考。
在笔者的第一本书《商业智能数据分析:基于Power BI和Tableau》中,曾经介绍了CRISP-DM(跨行业数据挖掘标准流程)模型,如图1.4.1所示。该模型具有普遍性,适用于不同的开发报表场景。模型外围的圆圈代表流程可周而复始地自我迭代,增量开发新的需求。该模型中包括6个步骤:
● 商业理解(Business Understanding) :要解决什么商业分析问题。
● 数据理解(Data Understanding) :有什么数据可以支持分析。
● 数据准备(Data Preparation) :准备结构化数据并导入。
● 建立模型(Modeling) :建立数据表关系、度量和字段。
● 模型评估(Evaluation) :评估数据模型是否满足分析需求。
● 结果部署(Deployment) :将开发应用部署和分享。
虽然说CRISP-DM模型具有普遍性和学术性,但对没有数据分析背景的用户来说,“数据准备”和“模型评估”这类词还是稍显陌生。
图1.4.1
图1.4.2是基于CRISP-DM模型改良的Power BI可视化分析流程,更为通俗易懂,也更加贴近Power BI的报表开发步骤。
图1.4.2
无论是CRISP-DM模型还是Power BI可视化分析流程,二者的核心思想都是高度一致的:结果必须满足业务分析的需求。
那么探索性分析也可以按以上步骤进行吗?开发者可能最初不了解需要挖掘的结果。即使是探索性分析,分析人员也会对分析目的先做假设,再通过分析印证假设的真实性。所以,以上步骤仍然有效。
CRISP-DM模型只是告诉了分析人员做什么,但是没有具体说明怎么做,还有更多落地的方法吗。CRISP-DM模型只是框架,告诉分析人员要做什么(What to do)。接下来的内容将介绍如何去做(How to do)。