如何分析数据?如何制作可视化分析报告?如何发现数据背后的秘密?如何发现问题、分析问题、解决问题?
疫情当下,相信大家对每天疫情发布会的官方报道并不陌生,下面引用一段某市的官方数据报道:
“我市上午召开第***场新冠肺炎疫情防控工作新闻发布会。发布会上通报,6月11日0时至24时,新增本土新冠肺炎病毒感染者64例,A区35例,B区、C区各5例,D区4例,E区、F区各3例,G区、H区、I区、J区各2例,K区1例;普通型3例,轻型30例,无症状感染者31例,隔离观察人员62例,社会面筛查人员2例”。
上面的大段文字,读起来都很费劲,更何况想要快速了解其中的信息了。
下面来分析一下这段话的几个重点。
(1)各区新增感染者人数分布。
(2)病型人数分布。
(3)筛查类型人数分布。
这大段文字,如果使用表格把这三个重点表达出来,是不是就非常清楚了?如图1-1所示。
数据分类管理,数据分类汇总很重要。
图1-1 使用表格表示疫情数据
如果觉得图1-1的表格看起来不那么清晰明了,那么可以绘制可视化分析图表,通过图表把需要关注的三个信息一目了然地表达出来,如图1-2所示。
图1-2 新增人数地区及类型和筛选分布图
本案例素材是“案例1-1.xlsx”。
给客户做产品报价模型,在做用电量计算时,针对同一个产品、同一个机台的几年耗电量数据进行归纳,想要看看机台用电量与机台产量有什么关系。
一般机台产量越高,用电量越大。但是,如果换算成每小时产量与每小时用电呢?是不是也是这种常规认识?
图1-3是某个机台在生产某个产品的工时、班产量和用电量的数据。
图1-3 机器工时、班产量和用电量的数据
这么多的数据堆积起来,很难看出机台用电量与机台产量有什么关系。先计算小时产量和小时用电量数据,如图1-4所示。
图1-4 计算小时产量和小时用电量数据
可以用小时产量作为X轴,用小时用电量作为Y轴,绘制XY散点图,如图1-5所示。
图1-5 小时产量与小时用电量的关系
从图表中可以看出,机台小时产量主要集中在6000~10000,小时用电量集中在2~6。在这个范围内,呈现出一种杂乱无规律的现象,甚至有些数据像是人为刻意做出来的,如图1-6所示。这些数据点的小时用电量是一样的,但是小时产量却相差很大。
图1-6 一组像是刻意做出来的数据
抛开这些嫌疑数据,分析小时产量和小时用电量到底有没有一定的关系。添加一个线性模型趋势线,如图1-7所示,可以看出,小时用电量与小时产量有一定的正向关系,即小时产量越大,小时用电量越大。
图1-7 添加的趋势线
从这个小时产量和小时用电量分布图(图1-7)中,还可以看出有几个异常数据点远离正常的数据区域,如图1-8所示。如果要使用这个历史数据作为今后计算耗电量的参考,那么这几个异常数据点应该被剔除,以免对计算结果造成较大干扰。
图1-8 几个异常数据点
本案例素材是“案例1-2.xlsx”。
预算分析,或者目标达成分析,不是算算差异数是多少,完成率是多少,而是要找出造成这个差异背后的原因。基于这点,将差异原因可视化,就是一个必须做的功课。
图1-9是2022年1-5月累计损益项目预算执行情况统计表,之所以把此表称为统计表,是因为这个表并没有从深层次上解释净利润预算执行率63.7%的原因。
为什么预算执行率这么低?是哪个项目引起的?
也许有人会说,每个项目的执行情况不是已经算出来了吗,看看数字就知道了。但是,这个表格的数字看起来很不直观,使人眼花缭乱。
图1-9 损益项目预算执行情况统计表
这是一个典型的因素分析问题,也就是在影响净利润预算执行的各项目(因素)中,究竟是哪些项目影响最大,这样才能为下一步改进管理、提高效益提供数字支持。
因此,可以绘制如图1-10所示的因素分析图,从而一目了然地得出结论:尽管营业收入超额完成目标,但营业成本、税金、销售费用、管理费用等均出现较大幅度的超预算。通过这个图表,可以很快获得重要信息。
图1-10 净利润预算执行影响因素分析图
本案例素材是“案例1-3.xlsx”。
图1-11是各门店的销售额和净利润数据。从这个表格中很难看出门店的盈亏分布情况:盈利多少家?亏损多少家?销售额和净利润主要分布在什么区间?这些门店的整体盈利水平如何?等等。本案例素材是“案例1-4.xlsx”。
图1-11 门店销售数据
可以以销售额为X轴,净利润为Y轴,绘制XY散点图,如图1-12所示。从这个图表中可以很清楚地看出这些门店的整体盈利水平。
此外,门店12和门店30的销售额相差并不是非常大,但一个是所有门店中净利润最高的,一个却是亏损的,这背后的原因是什么?
图1-12 门店盈亏分布图
找出这两个门店的利润表,对影响净利润的各因素进行分析,绘制瀑布图,如图1-13所示,显然门店12亏损的原因是商场租金太高。
图1-13 门店12和门店30的净利润分析图
图1-14是一个很简单的汇总表,是各分公司近几年的销售业绩,就是每年的合计数而已。但是,这样一个简单的汇总表却隐藏着重要信息。
图1-14 各分公司的历年经营业绩
本案例素材是“案例1-5.xlsx”。
至少要从这个表格来挖掘下面几个信息。
(1)各分公司历年业绩发展趋势如何?
(2)各分公司之间的历年业绩对比如何?
(3)各分公司的复合增长率如何?
前两个信息可以使用图1-15所示的图表来展示。从这个图表中可以一眼看出,分公司A业绩在稳步增长,分公司B近4年出现了大幅波动,分公司C则出现业绩持续下降(尽管2021年有所反弹,但仍是较低水平),分公司D在经历了几年的略微下降后,2021年出现快速增长。这些信息有助于针对各分公司的状况,做出不同的经营管理决策。
图1-15 各个分公司历年经营业绩趋势及对比
最近一年各分公司的业绩排名就很简单,但是,仅排名是不够的,这些分公司在这些年的复合增长率如何?这个指标也是需要考虑的。
制作各分公司历年的复合增长率图表,如图1-16所示。可以看出,各分公司的发展速度是不同的:分公司A尽管业绩稳步发展,但在近4年,其复合增长率稳定在7%左右,其他分公司则出现了较大波动。这些信息隐藏在如图1-14所示的简单汇总表中。
图1-16 各分公司历年的复合增长率图表
数据分析可视化,目的是快速找出数据差异背后的原因,这往往需要多个图表来层层展示,单一的一张图表是无法达到目的的。
在需要绘制多个图表来分析数据时,需要创建仪表板(DashBoard),需要先对整个仪表板的布局做好设计,先展示什么,再展示什么,最后得到什么,必要时要以少量的文字做注释。
例如,图1-17是一个简单的人工成本分析仪表板,用几个图表的组合来展示人工成本累计执行情况和全年进度情况。从1~5月累计执行情况来看,超预算41.8%,主要原因是5月份大大超出预算,其他月份是正常的。
本案例素材是“案例1-6.xlsx”。
图1-17 简单的仪表板