数据分析师手记：数据分析72个核心问题精解最新章节_刘林著

2.2　通用分析方法

第15问：什么是数据异常分析？

导读：在日常工作中，我们经常会遇到“××数据指标出现异常波动，或上升或下跌”的问题，“××指标”包括但不限于日活、次日留存率、注册转化率、GMV、客单价等。这类问题不但在工作中常见，也是面试中常被问到的问题。

1．数据异常分析是什么？

一般来讲，数据指标都有固定的波动周期，而且每个周期内数据的变化应该趋于稳定。当某数据指标出现不符合预期的变化，这就是所说的数据异常波动，需要去分析数据异常的原因。

因此，数据异常分析的核心是结合以往业务经验及各种业务信息，做出最有可能的假设，通过对数据指标的拆分，从多维度交叉分析，逐个验证假设，最终定位问题所在。在该过程中可能会在原假设基础上建立新的假设或者调整原来的假设，直到定位出原因。

先来明确数据异常的几种类型：

●　一次性波动：只在某个时间节点发生波动。一次性上升／下跌背后的原因一般都是短期／突发事件，例如系统更新导致数据统计错误，突发的渠道投放冻结等。

●　周期性波动：周期性发生上升／下跌，例如“双十一”、周末、节假日等因素。一般业务开展都有周期性，例如考勤工具类App，工作日和周末就有明显差异。

●　持续性波动：从某时间点开始，一直出现上升／下跌趋势。持续上升／下跌背后原因往往都是深层次的，例如用户需求转移、渠道投放长期暂停、大环境改变等。

以上三种波动对应着不同的严重程度和处理方式。周期性下跌一般不需要做特殊处理；一次性下跌往往来得比较突然，要关注事件持续性；持续性下跌，总是不见好转，持续的时间越长问题越严重，需要重点关注。

2．数据异常分析应用的基本思路

以“某App的日活显著下降”为例，进行数据异常分析。

第一步：确认数据源的准确性。

数据真实性是根基。实际工作中很多指标异常问题都是因为数据源出了问题，如客户端埋点出错、服务接口报错请求失败等都会导致指标异常。所以，开始分析前，要先和产品研发确认数据源是否有问题。

第二步：评估指标异常程度及影响。

明确以下问题：

①　日活究竟下跌了多少？波动幅度是否在合理的范围内？持续的时间是多久？

②　比昨天、上周同一天情况如何（同比、环比）？

③　日活下跌对相关业务方KPI影响的程度如何？

明确了指标下跌是否是真正的异常，并且有了轻重缓急的判断，下一步就可以进行指标的拆解，建立假设逐个验证，进一步逼近真实原因。

第三步：拆解数据指标。

例如，日活=新增用户+老用户留存+流失用户回流，将这些指标进一步拆解如下：

①　按新增用户来源渠道拆解：应用市场，百度搜索等；

②　按老用户留存渠道拆解：华为、vivo应用商店等；

③　按新老用户登录平台拆解：安卓、iOS等；

④　按新老用户的区域拆解：天津、北京等；

⑤　按新老用户使用版本拆解：新、老版本；

⑥　按新老用户活跃时间拆解：节假日、周期性等；

⑦　按回流用户类型拆解：自然回流、回访干预回流等。

分别计算每种拆解下的不同指标，通过以上拆解可以初步定位到哪个／哪些细分用户的下跌导致了整体的下跌。例如定位到是新用户增长下跌，按渠道拆分后发现渠道1的新增用户数下降明显，下一步就可以基于此现象做出假设，分析原因。

第四步：做出假设，分析验证。

初步确定异常发生的问题点后，接下来可以分别考虑“内部—外部”事件因素进行假设和验证。“内部—外部”事件在一定时间内可能会同时存在，万变不离其宗，主要关注数据指标的起点、拐点、终点即可。

●　数据指标起点：数据指标刚下跌时，发生了什么事件，往往起点事件是问题发生的直接原因。

●　数据指标拐点：在指标持续下跌过程中，是否某个事件的出现让问题变得更严重，或者开始改善。拐点意味着可以通过运营手段改善指标。

●　数据指标终点：当某个事件结束后，指标恢复正常；或当开始某个事件后，指标下跌结束。终点事件的两种形态，代表着两种改善指标的方法：等问题自己过去，或者主动出击解决问题。

内部事件因素分为用户获取渠道（渠道转化率降低）、产品功能迭代（功能迭代等引起某类用户不满）、运营策略调整（最近新上的运营活动没达成目标）、突发技术故障（突发的产品技术问题导致产品使用故障）。

外部事件因素采用PEST分析（宏观经济环境分析），包括政治（政策影响）、经济（短期内主要是竞争环境，如竞争对手的活动）、社会（社会舆论、用户生活方式、消费心理、价值观变化等）、技术（创新解决方案的出现）。

遵循短期变化找内因，长期异动找外因的原则。结合业务经验确定几个最可能的假设，并给出假设的优先级，通过数据逐一排查验证，最终定位到原因。

第五步：预测趋势，制订方案。

定位到原因后，还要预测指标接下来的走势，下跌会持续到什么时间，最坏能下跌到何种程度。将以上分析结论反馈给业务方后，探讨解决方案，并落地执行，最终解决问题。

3．小结

数据指标异常波动的分析框架如下：

第一步：确认数据源的准确性。

第二步：评估指标异常程度及影响。

第三步：拆解数据指标。

第四步：做出假设，分析验证。

第五步：预测趋势，制订方案。

在实际业务中，数据异常波动类问题比较常见，而且原因可能是多方面的，这就需要我们在平时工作中多留意数据变化，随着对业务的熟悉和数据敏感度的提升，对于数据的异常分析也会越来越熟练，可以更快地找到问题所在。

第16问：什么是描述性分析？

导读：在开始数据分析之前，首先要了解数据的大致情况，对数据进行一些统计性描述，这样不仅可以了解数据的整体概况，还能观察到数据的分布特征和异常问题等，这个过程就是描述性分析。

1．描述性分析是什么？

先来理解描述性分析的一些指标。常用的描述性统计分析指标如下，我们将重点讲解各个指标的优缺点和使用场景。

（1）平均值。

平均值顾名思义就是计算数据的平均数是多少，可以了解到数据的整体水平。

平均值计算简单，容易理解，可快速了解整体平均水平。但当数据差距很大，存在极端值时，就可能会出现平均值陷阱。

（2）众数。

众数是统计分布上具有明显集中趋势的数值，代表数据的一般水平。

（3）中位数。

中位数是描述数据中心位置的数字特征。大体上比中位数大或小的数据个数为整个数据量级的一半。对于对称分布的数据，均值与中位数比较接近；对于偏态分布的数据，均值与中位数不同。中位数的另一显著特点是不受异常值的影响，具有稳健性，因此它是数据分析中相当重要的统计量。

（4）方差、标准差、标准分。

样本中各数据与样本平均数的差的平方和的平均数叫作方差；方差的算术平方根叫作标准差。方差和标准差都是用来衡量一个样本波动的大小，方差或标准差越大，数据的波动就越大。

标准分也叫 z 分数，它是将原始分数与团体的平均数之差除以标准差所得的商，是以标准差为单位度量原始分数离开其平均数的分数之上多少个标准差，或是在平均数之下多少个标准差。用公式表示为： z =（ x - μ ）/ σ ；其中 z 为标准分数； x 为某一具体分数； μ 为平均数； σ 为标准差。标准分是一个抽象值，不受原始测量单位的影响。在质量管理中，常常听到的六西格玛管理就是标准分的典型应用。

（5）四分位数。

四分位数是指把所有数值由小到大排列并分成四等份，处于三个分割点位置的数值。分割后会通过5个数值来描述数据的整体分布情况，还可以识别出可能的异常值。

下边缘：最小值，即0位置的数值；

下四分位数：Q1，即25%位置的数值；

中位数：Q2，即50%位置的数值；

上四分位数：Q3，即75%位置的数值；

上边缘：最大值，即100%位置的数值。

（6）极差。

极差=最大值-最小值，是描述数据分散程度的量。极差描述了数据的范围，但无法描述其分布状态，且对异常值敏感，异常值的出现使得数据集的极差有很强的误导性。

（7）偏度。

用来评估一组数据的分布的对称程度，即以正态分布为标准描述数据对称性的指标。当偏度=0时，分布是对称的；当偏度>0时，分布呈正偏态；当偏度<0时，分布呈负偏态。

（8）峰度。

用来评估一组数据的分布形状的高低程度，即描述正态分布中曲线峰顶陡峭程度的指标。当峰度=0时，分布和正态分布基本一致；当峰度>0时，分布形态高狭；当峰度<0时，分布形态低阔。

在日常的数据分析中，经常使用以上指标对数据的集中趋势、离散程度、分布形状进行分析：

●　平均值、中位数、众数体现了数据的集中趋势。

●　极差、方差、标准差体现了数据的离散程度。

●　偏度、峰度体现了数据的分布形状。

描述性分析，即对数据样本所有变量做统计性描述，主要包括数据的频数分析、集中趋势分析、离散程度分析、分布和一些基本的统计图形等。

2．描述性分析应用的基本思路

首先，描述业务概况 ，根据分析目的，计算关键字段的描述性指标，如平均数、标准差、方差、分位值等。

其次，描述分布规律 ，如正态分布、长尾分布等。

再次，制定参考标准 ，根据业务经验或是之前制定的标准，制定参考标准。

最后，综合现状和标准输出有价值的结论，并进行可视化 ，如柱状图、条形图、散点图、饼状图等。

结合业务概况和分布规律可以明确业务现状，有了参考标准作为对比的对象，才能得出“是什么”以及“怎么样”的结论，最后一个准确合适的可视化图表可以方便呈现结论。

例如，对于一家线下零售门店，通过描述性分析评估近一个月的业务情况：

整体上看，该门店每天销售量／销售额的平均值是多少？四分位数是多少？标准差是多少？该门店客单价的分布如何？用户组成如何？是否存在二八现象？该门店每天客流量趋势怎么样？哪个商品销量最高，卖得最好？细分的品类中卖得最好的是什么？一天中哪个时间段购买最集中，卖得最好？

3．小结

描述性分析主要回答业务现状“是什么”以及“怎么样”的问题 ，这是最直观的数据分析手段，也是数据分析最基础的工作，但描述性分析重在描述和呈现现状，无法解释“为什么”，“知其然，不知其所以然”。所以，在实际的工作中，我们还要借助更多的数据分析工具去回答“为什么”的问题，例如我们后面篇幅重点讲解的细分分析、对比分析、漏斗分析等，通过探索影响结果的主要因素，“知其然并知其所以然”，这样才能针对性地制订方案，让业务朝着我们预期的方向发展。

第17问：什么是对比分析？

导读：“对比、细分、溯源”可以说是数据分析的“六字真言”，而“对比”虽然是最简单的数据分析方法，却是数据分析中非常重要的一环。对比分析是一种挖掘数据规律的思考方式，将两个或以上相关数据比较，直观地反映变化趋势，精准量化出数据之间的差异，洞察数据背后业务信息。一般来说，会涉及目标对比、时间前后对比（同比环比）、竞争对手对比等。孤数不证，只有经过对比，才能判断业务情况的好坏，才能找到业务迭代优化的方向，这样的数据分析才有意义。

1．对比分析是什么？

对比无处不在，它已经成了我们的一种潜在思维，以至于有时候我们忽略了它的存在。就像笔者团队写这本书一样，会对比很多类似的书籍，然后才知道应该怎样系统而全面地把书写好。

一般情况下对比分析并不是单独存在，而是与其他分析搭配使用，例如细分分析、象限分析、漏斗分析等，交叉对比达到数据分析的目的。

常见的对比对象如下图所示。

对于业务问题的评估一般都基于指标体系，所谓指标体系就是一些相互之间有逻辑关系的指标构成的一个系统的整体。可以通过指标体系中的宏观指标去监控业务的发展趋势，同时也可以通过拆解宏观指标挖掘当前业务的问题。常见的对比指标如下图所示。

确定了上面这些要对比的指标，那采用哪些统计量进行对比呢？也就是说，用哪些统计量来表征高低好坏？一般来说，涉及的统计量如下图所示。

2．对比分析遵循哪些原则？

对比分析要遵循的原则如下：

●　对比对象要一致；

●　对比时间属性要一致；

●　对比指标的定义和计算方法要一致；

●　对比数据源要一致。

例如有这样一个场景：“日销售报表”分析中，2022年8月1日的零售额同比2021年8月1日下降30%，所以2022年8月1日的销售可能存在问题。

实际上，结合具体行业思考，如果是在季节／周期性较强的零售业，这样的对比并没有实际意义：因为2022年8月1日是工作日，而2021年8月1日是周末（如下图所示），根据常识，周末的人流一定会更多，进而各方面的销售指标也更优。

也就是说对于零售企业，这两个日期处在不同业务场景，所以不能直接比较。 同样的原则（ “是否周末” ）可以延展到 “是否节日” ，如情人节与情人节同比、圣诞节与圣诞节同比。

此外，还有隐藏比较深的 “放假周期” ：今年国庆节放七天假，上一年是否也同样放七天假。 “活动周期” ：尤其是在电商行业，每年的活动周期都不一样，例如2022年“双十一”与2021年相比，11月多了1—3日的正式销售高峰，所以在做同比时，数据指标期望上应该有所调整。

3．小结

对比分析是一种非常基础的分析方法，在实际的数据分析工作中，它往往是搭配着其他的分析方法一同出现。一个合格的对比分析需要明确几个问题： 比什么？怎么比？和谁比？ 然后通过系统的横向对比（和行业、竞品比）和纵向对比（和历史同比、环比），才能发现问题的内在规律，得出一个比较准确和可靠的结论，进而帮助我们制订、优化方案。

第18问：什么是细分分析？

导读：“细分是一切数据分析的本源！不细分无分析！”是学习数据分析时总说的一句话，在数据驱动精细化运营的时代，需要对用户行为的每个点进行细分，才能挖掘到隐藏在其行为背后的真正影响因素，如RFM模型、漏斗分析最基础的原理就是细分分析。

1．细分分析是什么？

数据分析很重要的一个工作就是基于数据对当前的业务现状进行诊断，业务是在良性扩张还是低迷萎缩？当前的业务发展是否与预期一致？

为了回答以上问题，我们就需要用一套标准去评价业务现状，这一套标准也就是我们常说的业务指标体系，何为体系呢？单个指标不能称为体系，多个不相关的指标也不能称为体系，所谓体系，一定是多个相关的指标以一定的形式组织在一起，而这种形式，一般是金字塔或者逻辑树的形式，体现的是一种总分的思路。

有了完善的业务指标体系，就可以清晰地知道业务的现状，做到知其然—当前业务到底是好还是不好？好的话到底有多好？不好的话到底有多差？发展的趋势怎样？

但是仅仅“知其然”就够了吗？肯定不够，我们还要知其所以然。因为老板肯定还会问：为什么突然就好了？背后的原因是什么？这个好的态势是否可持续？为什么突然变差了？哪些环节出了问题？是否可以优化改进？相关部门应该背上多少KPI？也就是说，对于业务，我们不仅要知道现状，还要知道导致现状的原因，只有知道了原因，才能让数据指导业务的方向，提供可落地执行的方案。

而这个过程中最重要的一个环节就是对指标细分拆解。只有对关键指标拆解后才能找到问题的症结，进而制订对应的方案，形成抓手，完成从业务中发现问题，再回到业务中解决问题的完整闭环。

因此， 细分分析是一种非常重要的分析思维，多问一些“为什么”，才能得到关键的结论。而一步一步拆分，就是在不断问“为什么”的过程。

2．细分拆解应用案例

下面以小红书账号的涨粉为例，详细说明细分拆解的实现过程。

薯薯是某公司的新媒体运营，负责公司旗下10万粉丝的小红书账号。老板让她在接下来的3个月内（2022年3—5月）做到25万粉丝，这意味着3个月要净增15万粉丝。结果，3月的工作开启了2周，薯薯分析了一下账号的粉丝数据，发现2周内的粉丝净增数只有2000，按照这个趋势发展下去，根本完成不了指标。薯薯打算从数据分析入手，希望能找到线索，让自己的工作计划更加清晰。那么，15万的指标该如何达成呢？

目标：3个月粉丝数从10万涨到25万，总计吸引15万的新粉丝，平均每个月吸引5万的新粉丝。

拆解：新增粉丝数=自然增长粉丝数+内容增长粉丝数+活动增长粉丝数，如下图所示。

基于以上拆分，我们把过去三个月的自然增长、内容增长和活动增长的粉丝数据进行分析，各细分项目的粉丝数据如下所示。

那么接下来就要思考：

自然增长：参考历史数据预估3—5月，每天自然增长粉丝200个。

内容增长：保证产出内容数量，提高内容质量，预计每月带来5000个新粉丝。

活动增长：由于投入产出较复杂，下面展开细说。

以上自然增长和内容增长基本上是常规的增长方式，只要保证正常的产出数量和质量，基本上能够达成目标，且投入较低，无须过于担心预算费用问题。而对于活动涨粉则变数较大，因为一般活动投入费用较大，且效果浮动区间较大。为此，专门对活动涨粉进行细分拆解。

活动涨粉细分为以下几种方式：

●　裂变活动：参考行业数据。

●　付费推广：参考预算。

●　流量置换：参考历史数据。

●　创意活动：参考历史数据。

各种方式的涨粉预估如下图所示。

至此，经过以上的层层细分拆解，对接下来3个月的涨粉目标进行了细化，对应的自然涨粉、内容涨粉和活动涨粉的目标如下表所示。

对比现状和目标发现问题后，再对关键指标进行细分，有了这个细分的目标和执行计划，涨粉就变得清晰多了。

除了上面的案例之外，还有一些非常经典的指标细分拆解的案例，方法和思路类似。例如，收入指标GMV可以按照下图的方式进行拆解，GMV=流量×付费转化率×客单价。

对于社交类／工具类产品的DAU，可以按照下图所示的几种不同的方式进行拆解。

3．小结

细分拆解的思维方式并不是固定不变的，不同的拆解方式对应不同的执行动作，所以当我们不知道如何拆解的时候可以反过来想一想，拆解后有哪些对应的动作，毕竟没有动作的拆解毫无意义。细分拆解的方式有很多，但万变不离其宗，拆解都是为了更清晰地分析问题、制订方案。注意，拆解只是手段，优化才是目的。

“对比、细分、溯源”基本包含了数据分析最基础的思维方式。无论是数据处理、数据可视化、数据分析等，都需要不断地去做对比，做细分，找趋势（溯源），才能得到有效的结论。

第19问：什么是归因分析？

导读：归因是描述因果关系的一种思维方式，我们需要明确影响因素，在影响因素的范围下进行归因分析。在各个领域中应用时，必须结合业务具体情况，设定一些基本的假设，确保因果关系的准确性。

1．什么是归因分析？

业务中，老板可能经常会问你：为什么会出现这个问题？哪个因素最重要？这时就要用到归因分析。在介绍归因分析之前，先从以下两个案例入手，了解归因分析的使用场景。

案例1：

早上，小明在刷头条的时候看到新款的苹果手机发售了，觉得很不错。午休的时候刷抖音看到了自己关注的大V正在评测这款手机，便更加心动了。下午下班在地铁上刷朋友圈的时候，发现自己的朋友小王已经买了手机并在朋友圈晒图了，实在忍不了了，于是晚上到家喝了一杯白酒壮壮胆跟老婆申请经费，最后老婆批准了，小明在京东和淘宝上对比了一下，发现京东上新品有活动，价格和质保更放心，于是在京东下单了。那么问题来了，头条广告、抖音大V、朋友圈各个站外渠道对这次成交分别贡献了多少？

案例2：

乔小丹想在淘宝上买一双篮球鞋，通过首页搜索看到了AJ，点进去看了款式和颜色，觉得很不错，无奈囊中羞涩就作罢。五一期间，乔小丹再次打开了淘宝，看到首页的优惠活动，点击进入活动分会场，再次看到AJ，想想下个月的生活费，又忍痛退出了首页。但是，不久后乔小丹在首页的“猜你喜欢”页面再次看到了AJ，点击进去看了一下评论和买家秀，确实不错，最终决定下单。那么问题来了，淘宝内首页搜索、活动会场和“猜你喜欢”这些站内的资源位对这次成交分别贡献了多少？

以上是两个比较常见的经典业务场景，随着移动互联网的兴起，业务场景越来越复杂，类似上述的归因分析需求也日趋增多。上面两个案例分别是站外渠道和站内资源位两个经典场景下的归因分析。场景虽有所区别，但是目的都是相似的，即针对当前的场景和目标，怎么把“贡献”合理分配到每一个坑位上。

实际上这类问题并没有标准答案，因为真正的业务错综复杂，很难精准地把贡献进行合理的分配，但归因分析的需求又是如此高频，且时效性很强，所以需要一些方法论的支撑来进行尝试，快速定位问题而不至于面对问题无所适从，不知何处下手。

因此，广义的归因分析是指找到事情发展的原因，识别所有对最终转化有贡献的过程，并确定每个过程的贡献度。通过一定的逻辑方法，计算每个用户路径或者触点对最终结果的贡献程度，帮助我们看清影响结果的关键因素，从而不会轻易被表象所迷惑。

2．常见的归因分析模型

下面就来介绍几种常见的归因分析模型，供读者在不同的业务场景中参考使用。

1）末次归因模型

也称最后点击模型，这种归因模型将功劳100%分配给转化前的最后一个渠道，即不管用户发生了什么行为，只关注最后一次。这是最简单、直接，也是应用最为广泛的归因模型。

适用场景：短期的投放，转化路径少、周期短、迭代快的业务，按照末次归因模型，能比较好地了解到底是哪个渠道对于最终的转化有比较好的促进作用。

2）首次归因模型

也称首次点击模型，这种归因模型将功劳100%分配给第一个渠道，即不管用户产生了多少行为，只关注第一次。如果末次归因模型是认为“不管之前有多少次互动，没有最后一次就没有成交”，那么首次归因模型就认为“没有第一次的互动，剩下的渠道连互动都不会产生”。换句话说，首次归因模型强调的是驱动用户认知的、位于转化漏斗最顶端的渠道。

适用场景：公司处于市场开拓和品牌宣传时，更关心用户是在哪里第一次接触公司，进而把更多的用户先吸引过来，用首次归因模型可以看出来哪些渠道更有效。所以首次归因模型对于没什么品牌知名度，且重点在市场拓展、渠道优化的公司比较适用。

3）线性归因模型

线性归因模型是多触点归因模型中的一种，也是最简单的一种，它将功劳平均分配给用户路径中的每一个触点。

适用场景：根据线性归因模型的特点，它更适用于企业期望在整个销售周期内保持与客户的联系，并维持品牌认知度的公司。在这种情况下，各个渠道都起到相同的促进作用。

4）时间衰减归因模型

对于路径上的所有渠道，距离最终转化时间越近，就可以获得更多的功劳权重。时间衰减归因模型基于一种假设：它认为渠道越接近转化，对转化的影响力就越大。这种模型基于一个指数衰减的概念，例如，以转化当天为基准，转化前7天的渠道分配50%的权重，前14天的渠道分配25%的权重，以此类推。

适用场景：和末次归因模型比较类似，适用于客户决策周期短、销售周期短、引导用户完成转化的场景。例如，做短期的促销时就打了两天的广告，那么这两天的广告理应获得较高的权重。

5）位置归因模型

也叫U型归因模型，它综合了首次归因模型、末次归因模型和线性归因模型，第一个和最后一个渠道各贡献40%，中间的所有渠道平分剩下的20%。

U型归因模型也是一种多触点归因模型，实质上是一种重视最初带来线索和最终促成成交渠道的模型，一般它会给首次和末次互动渠道各分配40%的权重，给中间的渠道分配20%的权重，也可以根据实际情况来调整比例。

6）自定义模型

可以根据自己对于业务的理解，创建自己的模型，给各个渠道自定义贡献比例，让其具有特定的业务性和目的性，并将其和其他归因模型做对比。

在这种模型下，可以使用线性归因、首次归因、末次归因、时间衰减归因以及位置归因模型作为基准线，通过不断测试调整各个渠道的权重。自定义模型不仅可以个性化地评估当前的业务，还可以随着时间的推移进行优化。

以电商用户购物场景为例，用户从进入App到最终产生购买行为，中间可能会有以下关键的渠道和坑位：

●　点击搜索栏进行搜索进入商详页；

●　点击首页运营位进入商详页；

●　点击推送消息进入商详页；

●　通过参与限时活动进入商详页；

●　通过微信公众号推送消息进入商详页；

●　通过购物车等坑位直接转化。

对近30日成交订单进行归因分析，此处选用的归因计算方式是“末次归因”。归因窗口期设为1天，即观察用户在发生订单行为之前的24小时之内点击了哪些坑位。然后再找到离“提交订单”最近的一个坑位点击行为。

最终得到的结果如下图所示，App内多个坑位中，点击搜索栏和直接转化对于成单的贡献分别占52.67%、27.56%。运营位、活动、推送消息（Push点击）和微信公众号分别只带来不足10%的成单贡献。

这个结果可以清晰地反映如下几点信息：最终的贡献度反映了不同坑位对最终成单转化的贡献及互相之间的差异。对比不同坑位的有效转化点击率，可得知不同坑位对用户的吸引程度。

3．小结

理论上来说，归因分析应当是一个非常有用的分析方法。但在实际应用时存在一些难以克服的问题，这其中最大的问题是数据质量的问题，一个模型再好，如果数据质量不行，那也是不准确的。

第20问：什么是预测分析？

导读：努力发展分析能力，不仅能了解过去的表现，而且能预测趋势和未来事件，以提高公司敏捷性。预测分析是实际工作场景中必备的分析方法，有助于提高公司产品的服务效率、发现潜在威胁、优化未来工作模式等。

作为公司业务的策略官，这类预测的工作一般都是由数据分析师完成，所以，对于数据分析师而言，掌握科学的预测方法，无疑是非常重要的。

1．什么是预测？

什么是预测？用最简单的话来说，它是基于过去和现在的数据，来预测未来的过程。数据在时间维度上呈现出一定的变化规律，基于这个规律才可以进行预测，这个过程一般叫作时间序列预测。在正式开始之前，先了解一些时间序列相关的术语。

时间序列数据通常是随时间推移而收集的数据，它的变量是时间。例如，下图是某国每年接纳游客数量（单位：百万）的时间序列数据。

时间序列数据中包含了一些重要的组成部分，我们需要将这些组成部分拆解：

●　趋势性：趋势是事物发展或变化的总体方向。在上图中，我们看到时间序列呈增长趋势，这意味着游客数量整体上呈上升趋势。我们将其中的趋势剥离出来，如下图中第一张图所示。

●　季节性：在上述时间序列中可以看到另一个清晰的模式，该模式以固定的时间周期重复出现，称为季节性。这里的季节性不一定是春夏秋冬的季节，在特定时间周期内重复出现的模式都可以说是季节性，如下图中第二张图所示。

●　随机性：去除趋势性和季节性后，剩下的就是一些随机的、无任何规律的白噪声，如下图中第三张图所示。

因此，预测分析是使用企业数据来预测企业在业务领域中的变化，将统计建模、预测和机器学习等技术应用于描述性和诊断性的分析输出结果，以对未来进行预测的一种分析思维。

预测分析的应用案例，限于篇幅不在此呈现，请在本书前言扫码获取小册子查看。

2．小结

预测很复杂，因为预测涉及很多业务。预测很重要，因为它关乎后续业绩的发展和政策的制定。但是，预测也很简单，简单到用Excel操作就能轻松实现。对于一些简单的案例非常方便、适用。

对于复杂的时间序列预测还需要借助更复杂的模型，如AR/MA/ARIMA等实现，感兴趣的读者可以深入研究。机器学习提供支持的预测分析，具有利用大量数据并基于该数据做出更准确预测的能力。

第21问：什么是相关性分析？

导读：数据分析过程中，通常要判断两个数据之间是否有关系，即一个数据变化，另外一个数据是否会随之变化。如果随之变化，就认为两个数据之间具有相关性。反之，就认为没有相关性。相关性分析可以帮助我们找到影响问题的关键因素，同时定量地给出相关性的大小，对于定位问题原因十分有帮助。

1．什么是相关性分析？

1）相关性定义

相关性是描述两个变量之间相互关系强弱和方向的度量。它不仅能够研究两个变量之间的相互影响的强弱，还能表征影响的方向（正负），是数据分析中较为常见的研究变量关系的方法。

例如，摄入的卡路里数量和体重存在着正相关，即卡路里摄入得越多，体重也会随之增加，此长彼长。外界温度与暖气费也存在着相关性，只是两者是负相关，即外界温度越低，暖气费用就会越高，此长彼消。

要了解相关性，最重要的一点是，它仅显示两个变量之间的相关性如何。但是，相关性并不意味着因果性。一个变量 a 的变化可能会引起另一变量 b 的变化，我们认为变量 a 和变量 b 相关，但这并不意味着另一个变量 b 的变化是由变量 a 导致的。

2）皮尔逊相关系数

在相关性分析中，会根据使用的数据类型不同选择不同的相关系数，如皮尔逊相关系数、斯皮尔曼相关系数、肯德尔相关系数等，下面将重点介绍最常见的一个。

皮尔逊相关系数用于评估一个变量的变化与另一个变量是否呈比例变化的线性关系。注意，这里着重强调是用来评估是否具有“线性”关系，简单来说，皮尔逊相关系数可以回答以下问题：相关性可以通过直线展示吗？

下面是皮尔逊相关系数 r 的公式：

虽然公式看起来很复杂，但实际上Excel提供了相关性分析所需的函数和工具，我们只需要学会使用它们即可。

相关性分析主要解决以下两个问题：

●　判断两个或多个变量之间的统计学关联；

●　如果存在关联，进一步分析关联强度和方向。

2．相关性分析应用的基本思路

1）Excel函数计算相关性

要手动计算相关系数，还要记住上述皮尔逊相关系数的烦琐的公式，不过万能的Excel早已经帮我们准备好了函数，在Excel中用CORREL()函数或PEARSON()函数在一秒内就可以获得想要的结果。

●　CORREL()函数

CORREL()函数返回两组数据的皮尔逊相关系数。它的语法非常简单明了：

CORREL（数组1，数组2）

假设在B2：B13中有一组自变量（x），在C2：C13中有一组因变量（y），则相关系数公式如下：

=CORREL（B2:B13, C2:C13）

或者，交换位置仍然可以得到相同的结果：

=CORREL（C2:C13, B2:B13）

无论哪种方式，该公式都表明每月平均温度与热水器的销量之间存在很强的负相关性（约-0.97）。

●　PEARSON()函数

Excel中的PEARSON()函数也可以执行相同的操作，用来计算皮尔逊相关系数，语法与CORREL()函数类似：

PEARSON（数组1，数组2）

因为PEARSON()函数和CORREL()函数都计算了皮尔逊线性相关系数，所以它们的结果应该一致，但是，在Excel 2003和更早版本中，PEARSON()函数可能会显示一些四舍五入的错误。因此，在旧版本Excel中，建议优先使用CORREL()函数而不是PEARSON()函数。

在我们的样本数据集上，两个函数都显示出相同的结果，如下图所示。

2）散点图进行相关性分析

在进行相关性分析时，还可以绘制散点图，通过添加散点图的趋势线进行相关性分析，具体步骤如下：

（1）选择包含待分析数据的两列，列的顺序很重要：自变量应在左列中，在 x 轴上绘制；因变量应在右列，在 y 轴绘制。

（2）在“插入”选项卡的“图表”组中，单击“散点图”图标，即可在工作表中插入散点图。

（3）右击图表中的任何数据点，然后在弹出的菜单中选择“添加趋势线”，并在选项设置中选择“显示公式”和“R ² ”。

对于以上数据集，除了绘制的趋势线外，还显示了R ² ，也称为“决定系数”。此值表示趋势线与数据的对应程度，R ² 越接近1，拟合越好。根据散点图上显示的R ² 值，对其进行开方即可以轻松计算出相关系数。

如下图所示，根据上述数据计算出的R ² 值为0.9455，且整体趋势是向下的，相关系数为负。因此，对其进行开方，可以得到相关系数R=-SQRT（0.9455）=-0.97，与之前计算的结果完全一致。

3．小结

虽然皮尔逊相关性分析非常方便，但在使用时需要注意以下几点：

（1）皮尔逊相关系数仅可以表征两个变量之间的线性关系，这意味着，如果两个变量是以另一种非线性（如曲线）形式强烈相关，皮尔逊相关系数可能等于或接近于零。

（2）皮尔逊相关性并不能区分因变量和自变量。例如，当使用CORREL()函数查找每月平均温度与热水器销量之间的相关性时，得到的系数为-0.97，这表明负相关性很高。但是，如果交换两个变量的位置仍获得相同的结果，这意味着相关性是没有先后关系的，更不能说明因果关系。因此，在Excel中进行相关性分析时，还要注意所提供数据的逻辑关系。

（3）皮尔逊相关系数对异常值非常敏感。如果数据中存在着明显的离群点和异常值，皮尔逊相关系数可能会计算不出变量之间的相关性。在这种情况下，可以使用斯皮尔曼相关系数。

第22问：什么是二八定律／帕累托定律分析？

导读：你知道吗？世界上不足20%的人拥有80%以上的财富。企业中80%的销售额是由20%的产品或客户贡献的。这些现象暗合帕累托定律，即在任何一组事物中，最重要的只占其中一小部分，约20%，其余80%尽管是多数，却是次要的。

1．什么是帕累托定律？

帕累托定律是意大利经济学家帕累托在1897年提出的，也叫二八定律。很多人认为多数很重要，可帕累托却不那么认为，他认为20%的少数是重要的，而80%的多数是不重要的。他从大量的经济学统计中发现，80%的营收来自20%的人的投入！例如，80%的营收来自于20%的客户；80%的车流量集中在20%的道路上；80%的工作由20%的人在承担；80%的医疗资源被20%的疾病消耗。

他的结论是80%的结果归于20%的起因，多数往往只会造成少许影响，少数则往往造成关键的影响。遵循“二八定律”的企业在经营和管理中往往能抓住关键的少数顾客，精确定位，加强服务，达到事半功倍的效果。如美国的普尔斯马特会员店始终坚持会员制，就是基于这一经营理念。

因此，二八定律分析要求数据分析师在数据分析工作中要善于抓主要矛盾，善于从纷繁复杂的数据工作中理出头绪，把资源用在最重要、最急迫的事情上。

2．帕累托定律应用的基本思路

在实际业务中，帕累托定律如何去使用呢？其中一个典型的场景就是产品分析中的ABC 分析。ABC分析是通过产品的累计指标，对产品进行区别和分类，即将商品划分为不同策略产品，进而采用不同的行动方案提高商品管理效率。计算过程如下：

（1）对评估指标（如销售额、利润等）进行排序；

（2）求出每个商品的累计数据；

（3）求出每个商品的累计数据占比；

（4）对每个商品的累计占比进行等级划分（如累计销售占比≤70%的为A类款，累计销售占比在70%～90%的为B类款，累计销售占比在90%～100%的为C类款）。

这些计算结果可以如何使用呢？例如，销售占比70%的A类商品（约30%数量占比）可以定位为品牌的畅销核心款；B类产品可以定位为一般销售款；而C类产品可以定位为滞销款。在对产品进行分类的业务定义后，就能实施不同的库存计划。

可以在本书前言扫码获取小册子，查看Python绘制帕累托图的代码。

帕累托定律的使用误区：

误区1： 数字不必精确到“20”和“80”，它可能是80/20、90/10或90/20，而且数字加起来不一定是100，80/20法则只是描述分布的粗略指导。

误区2： 不要以为帕累托定律意味着只做80%的成果。正如80%的楼房是在前20%的时间内建造的，但仍然需要完成楼房的其余部分才能完成工作。著作《百年孤独》80%的篇幅是在前20%的时间里完成的，但如果没有考虑到其他的细节，它就不会是杰作。帕累托定律是一种对事物主次关系的认知，但次要的部分并非不必要。

3．小结

帕累托定律的关键是可以让你选择并专注于重要的20%。20%的努力产生80%的效益，但是，20%的效益却会消耗80%的努力。我们不应该只顾着非常努力地工作，而应该把主要精力集中在产生大多数结果的努力上，尽量减少其余低产出的努力。这样，就有更多的时间专注于更重要的任务。

2.2 通用分析方法

第15问：什么是数据异常分析？

第16问：什么是描述性分析？

第17问：什么是对比分析？

第18问：什么是细分分析？

第19问：什么是归因分析？

第20问：什么是预测分析？

第21问：什么是相关性分析？

第22问：什么是二八定律／帕累托定律分析？

2.2　通用分析方法