购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

任务四
了解大数据分析流程

情境案例

以下为分析师在数据分析基础上,为公司提供的建议。

(1)公司销售收入下降了,所以应进一步提高销售收入。

(2)公司销售收入下降是由于某销售渠道客户黏性较低、大幅流失导致的。公司应通过给老客户发放优惠券等政策,提升老客户的黏性。

(3)公司销售收入下降是由于某销售渠道客户黏性较低、大幅流失导致的。公司应通过拉新活动,扩大新客户的规模。

请试着讨论以上建议是否合理。

知识准备

大数据分析是指利用大数据平台和技术实现多源财务数据自动采集、处理、建模和可视化的分析全过程,它的目标是提高会计人员的分析效率和分析有效性,主要包括五个关键步骤:明确分析目标、收集数据、清洗数据、建模与可视化分析、出具决策建议。

一、明确分析目标

明确分析目标是数据分析和数据挖掘的第一步,即明确数据分析的对象、目标或任务。在此环节,数据分析人员应该跟业务需求方多次沟通与合作,把握最终要解决的问题。需要明确的问题通常包括:业务需求方的指标;掌握哪些数据源;分析结果要呈现给谁;数据是否能够满足业务需求方的目标。

明确分析目标是非常重要的。如前所述,分析目标主要包括战略目标、经营目标及业务目标,不同目标的分析思路是不同的。例如分析瑞琪公司是否应进入奶茶市场,就应分析现在奶茶市场的行业现状及发展趋势、公司需要的资源投入等情况。如果只是分析如何提高瑞琪公司客户的下单率,就要分析客户浏览产品而未下单的原因、现有的促销策略是否有效等情况。

二、收集数据

数据收集的方法和质量,将在很大程度上决定数据分析的最终效果。从数据的来源看,可以分为内部数据收集和外部数据收集。内部数据收集指的是收集公司内部经营活动的数据,通常可以从各系统数据库中收集。外部数据收集指的是获取公司外部的一些数据,比如获取竞品的数据、获取官方机构公布的行业数据等。

公司需基于分析目标及选定的分析方法,确定数据收集的来源及工具。数据收集的来源主要包括政府网站(如国家统计局官网)、上市公司信息(如巨潮资讯网)、数据库(如国泰安数据库)及网络信息。

三、清洗数据

为确保数据分析或挖掘结果的准确性,往往需要对数据做一些基本的清洗,比如清洗缺失值、重复值、异常值或者过滤那些不符合要求的数据。

收集的数据需要进行清洗处理才能进行分析。数据清洗主要涉及缺失值清洗、格式内容清洗、合理性检查三个方面。

缺失值的重要性不同,对缺失值处理的策略也有所不同。但需要注意的是,实际应用中对缺失值的重要性判断非常复杂。例如在销售数据分析中,当希望对每个客户进行分析的时候,客户名称就是重要的,那么缺失客户名称的数据就需要被清除。但如果不需要精确到对每个客户进行分析,那么缺失客户名称就不那么重要。对于重要的缺失值,首先需要看通过其他数据收集渠道是否有可能获取缺失值,如果不能取得,则可通过一定的计算规则予以填充。

格式内容出错是非常细节的问题,很多分析失误都是源于此问题,所以需要进行格式内容清洗。常见的问题包括:时间、日期、数值、全半角等格式不一致;数据值与该字段应有内容不符(例如,资产栏填了“应付账款”数据)。分析人员需要仔细检查数据格式和内容,特别是当数据是手工填写且校验机制不完善时。

在数据中还可能存在一些逻辑错误。合理性检查的目的是剔除使用简单逻辑推理就可以直接发现问题的数据,防止由此导致的分析结果偏差。有些逻辑错误可以直观判断,例如数据中出现了“毛利率,120%”的数值,通过简单的判断就可以认为其是不合理的。有些逻辑错误需要通过交叉验证的方式进行判断。例如数据中出现了“毛利率,30%”的数值,可能无法直接判断,但可以借助“营业收入”与“营业成本”数据的交叉核对,验证“毛利率”数据的准确性。

四、建模与可视化分析

在进行大数据分析时,应建立数据指标体系进行分析,如公司整体经营层面的偿债能力、盈利能力等指标体系。在具体分析时,还应基于指标体系及业务逻辑关系构建起数据之间的关系。例如订单表和订单明细表,建模时需要清楚每个表都有哪些字段,两表之间有什么联系,它们是否可以通过订单表里的“订单编号”和订单明细表里的“订单编号”这个关键字段进行对应从而创建表间关系。

为了更好地展现分析结果,需要进行可视化设计。可视化设计主要包括两方面:一是对准备好的数据通过选择合适的图形进行可视化呈现;二是对可视化看板页面进行设计,比如拖动图形、表格等组件并将其拖动至看板相应区域,调整图形大小进行可视化展示。

一个合适的图表能够把数据之间的联系转化为直观的信息,而错误的图表可能会将分析引向错误的方向。数据分析人员必须了解各种图表类型,知道每个图表适合做哪些分析,能够展现哪种类型的信息。接下来对常用的几种可视化形式进行简要介绍。

第一类是柱形图。柱形图一般用于强调比较关系,即通过相邻柱之间的高度差,来体现同类别数据的大小差异。人类对高度差异很敏感,所以辨识效果非常好。

第二类是折线图。折线图将每个数据项表示为一个点并通过线段将这些点连接起来,以表现数据值变化的过程和趋势。折线图一般用于表示等间隔的时序数据,突出某度量项的值随时间变化的情况和趋势。

第三类是饼图。饼图通过将圆饼分割成若干个扇形来表现不同类别数据占总体的大小比例。饼图更强调比例关系,其所表达的是同一个整体中不同成分的比例关系而不是具体的数值,比较适合用于简单的占比分析。

第四类是条形图。条形图是横向的,它通过横条的长度来表示数据的大小。条形图虽然也是用来表达数据间的比较关系的,但相比柱形图,它更适合类别较多的数据。

第五类是散点图。散点图是表示二维数据常用的方法。散点图常用于表现数据点的分布情况以及变量之间的相关性,通过散点图,数据分析人员可以比较容易地分析数据的关联和异常。

第六类是地图。地图通常是按照国家、省市行政区划分,利用颜色深浅的不同,来展现与地理位置有关的数据信息的多少。地图比较适用于有空间位置的数据集。

以上只是对部分可视化形式的简单介绍,在后面的项目中,还会介绍具体可视化设计的内容,并通过不同的案例进行可视化实际操作。

五、出具决策建议

分析的主要目标是给出建议,不能支撑决策的分析是没有意义的。在出具决策建议时,首先需明确决策建议的使用对象。一般而言,使用对象的需求即为数据分析的目标。技术人员、销售人员、管理人员以及公司董事会对数据分析的需求是不同的,即使是技术人员,在不同时期,对数据分析的需求也有所不同。在出具决策建议时,应阐释清楚以下四个方面的问题。

第一,通过指标的数据表现,客观描述经营现状。例如,公司第三季度销售收入为1 000万元;公司累计活跃用户为4 000万人等。

第二,在数据描述的基础上,基于标准与分析,进行判断。例如公司第三季度销售收入为1 000万元,需确定判断标准,再进一步判断是变好了还是变差了。

第三,在判断的基础上,分析原因。例如,销售收入下降了,应确定下降的原因。

第四,给定建议。在分析指标波动动因的基础上,基于对业务的了解给出切实可行的建议。

任务实施

情境案例中,第一条建议只说要提高销售收入是没有意义的,因为没有说明如何提高销售收入,所以不是可行性建议。

第二条和第三条建议首先分析了销售收入下降是由于某销售渠道客户黏性较低、大幅流失导致的。所以应针对提升客户留存率提供建议。比如给予老客户一定优惠政策,增加对应渠道的广告投入(前提是广告确实具备效果)等。

在实际分析时,还需要进行预测。尽管预测并不是每个建议都必须包含的因素,但是通过预测,给定未来趋势的判断,对做出决策无疑是有用的。 Wl/aw0yP8UEunYkZlLn5eRNUfZdIdIiXrHktJ1tE1+dOe1LY3sU589+Mws3jQqLe

点击中间区域
呼出菜单
上一章
目录
下一章
×