本书使用Adventure Works数据库作为演示Power BI/Tableau使用的数据源(读者可以在“BI使徒”公众号后台回复“学习资料”,找到有关的下载文件。)
Adventure Works(ADW)是微软虚拟出来的一家销售自行车及配件业务的跨国公司。ADW数据库覆盖公司历史销售记录、销售任务额、财务记录、客户记录等业务场景,本书将其作为案例数据库。
本书提供两种形式的数据源:SQL文件和Excel文件,建议有IT背景的读者使用SQL文件,无IT背景的读者可以自行选择。
ADW数据库中的大部分表格按照规则进行命名:名字以“Fact”开头的表格皆为事实表,例如“FactInternetSales”;名字以“Dim”开头的表格皆为维度表,例如“DimReseller”。图1.6.1所示为中英文名称对照表。
图 1.6.1
在演示案例过程中,涉及两个角色:提出具体商业需求的甲方和负责数据分析的乙方。下面使用前文提到的CRISP-DM数据挖掘流程分析甲方目的。
甲方主要代表销售部、财务部的业务人员,向项目人员提出了一系列基本商业分析目标。
销售部:
(1)按日期、销售区域、产品类别、经销商分组等维度对历史销售数据进行汇总,从而分析其同比、等比、排名、占比等情况。
(2)对产品ABC需求的分类分析。根据事物在技术或经济方面的主要特征,进行分类和排序,划分重点和非重点,从而有区别地确定管理方式。
(3)按日期、员工、组织、公司账号查看销售人员任务达成率,并分析销售人员任务达成率的历史变化,包括汇总、排名、占比和方差等数据的计算。
(4)对销售额进行预测分析,包括预测准确率、累积预测额、预测累积与销售累积差额。
财务部:
按组织架构和公司子账户展示历史财务数据,并显示同比、等比等分析结果。
分别对应每个商业分析目标,分析师给出自己对每项数据的理解,并简要地写出达成目标所需的操作。
销售数据:
(1)销售数据来自线上和线下两个渠道,线上销售对应线上销售表,线下销售对应线下销售表,日期维度对应日期表,地理维度(包括城市、省份、国家)对应地理表,产品维度对应产品表,经销商维度对应经销商表。汇总、同比、等比、排名、占比等计算需要通过表达式实现。
(2)任务额度来源于销售任务额度表,日期对应日期表,员工对应员工表,组织对应组织架构表。汇总、排名、比例、分析等计算需要通过表达式实现。
(3)用ABC分类法分析需求(帕累托分析)。
(4)通过预测模式实现。
财务数据:
涉及资产平衡表和资产损益表。
因为案例中所使用的数据都已经被清理过,可以直接使用,所以此步骤略过。
笔者将在后面围绕此步骤展开具体建模实现的方法,这也是此书的重点所在。
笔者再次代表甲方评估分析结果。
通过Power BI Pro和Tableau Online将分析结果部署到云上。
1.7节会介绍SQL数据库的安装,以及其他相关应用程序的安装方法,对于使用Excel数据源的用户,可以选择跳过此节内容。