购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.1 基础认知

第1问:数据分析怎么学?—本书学习指南

1.如何阅读本书?

对于从0到1的入门学习,重要的是要先建立对该领域的认知框架,再逐步进行知识的汲取。对于数据分析初学者而言也同样如此,这样的做法有如在学生时代学习时,老师根据教学大纲给学生授课,学生基于考试大纲进行复习以应对考试。

本书说不上是数据分析领域的权威大纲,但内容是基于笔者团队多年实战经验沉淀的知识框架。入门数据分析师可以围绕本书,针对不同方面的内容进行学习与实践。

在第55问“数据分析没有思路怎么办?—数据分析中‘以终为始’的思考逻辑”中,我们介绍了 以终为始 的思考逻辑,而它也同样适用在阅读中。这个逻辑建议读者带点“功利主义”去阅读,以便更高效地汲取书中知识,达成自己的目的。所谓的“功利主义”实际上也就是在做目标管理:这本书是在为你的哪些目标做服务?定义好阅读目标后,第二步才开始制订阅读计划:本书的内容如何帮助你实现目标?

而在此之前,需要先对本书的整体有个认识,也就是要做“检视阅读”。

(1)检视阅读:了解一本书的大致轮廓。

检视阅读建议读者先对所有内容进行快速略读,略读的目的是了解这本书的大致轮廓。因此,还没接触过数据分析的读者,对于一些不太能理解或者读不懂的地方,可以先跳过。

另外,目录是书的骨架,本书每个章节的前后逻辑都经过了笔者团队的反复讨论与优化。读者可以结合前言提到的胜任力模型来浏览目录,对本书内容有总体的认知。

了解了本书的大体内容后,可以按目的进行深入的分析阅读与主题阅读。

(2)分析阅读:反复咀嚼、理解一本书,把书中知识变成自己的。

这个阶段需要根据阅读目标,选择需要深入阅读的部分进行重点学习。在阅读过程中遇到不懂的地方,除了进行反复咀嚼外,还可以通过外部知识补充理解。

一本书的价值是作者与读者之间的相互成就。为了达到“把书中知识变成自己的”这个目的,需要读者通过“输出”来倒逼知识的“输入”(费曼学习法)。

读者按目的选择需要深入阅读的部分后,可以输出笔记:

● 结构笔记:全书围绕着初级数据分析师胜任力模型展开,为了能让读者理解这个模型,建议读者能主动输出结构笔记,笔记的重点是数据分析的能力结构,而不是细节知识。

● 概念笔记:在业务实践或者回答业务面试题的过程中,形成自己的分析框架;分析框架的搭建可以参考下文“搭积木”的方法实现。

(3)主题阅读:在一个主题下做延伸阅读。

相比于分析阅读,主题阅读处在更高的阅读层次。什么叫主题阅读?顾名思义,就是带着一个“主题”,或者说带着“解决某个业务问题”的目的来看本书。

在前面阅读步骤的沉淀下,如果已经对数据分析中的大部分知识点有了一定了解,此时为了达成主题阅读的目的,可以借助“搭积木”的方法使用本书。

2.如何使用本书?—“搭积木”的方法玩转本书

什么是“搭积木”?在理论学习阶段,需要读者通读本书,对数据分析建立全面的认知,搭建起自己的分析“武器库”。在实践阶段,遇到问题,采用类似“搭积木”的方式,在“武器库”中选择合适的“武器”(思维方法、分析工具)解决问题。

对于初学者而言,在分析实践过程中,有个常见的问题:该如何选择分析方法?基于笔者团队的业务经验,有一个重要的技巧,就是先回答“业务需求方是谁?”这个问题,由此基于不同部门得出不同的分析方法:

● 用户运营部门、会员管理部门:从常见的用户分析方法入手(第32~35问)。

● 产品部门、产品经理:从常见的产品分析方法入手(第29~31问)。

● 市场部门、战略部门、产品部门:从常见的行业分析方法入手(第23~28问)。

以上就是简单的“搭积木”方式:根据实际的业务场景,从书中挑选出合适的方法论丰富“武器库”。更进一步,深入数据分析万能流程中,可以按如下方式“搭积木”:

(1)明确问题。

这个阶段重要的是对业务问题进行清晰定义。借助积木可完成以下工作:

● 数据思维的逻辑整理(第12~14问);

● 描述性分析(第16问);

● 对比分析(第17问)。

(2)分析原因。

这个阶段重要的是对前面定义好的业务问题进行下钻分析。借助积木可完成以下工作:

● 数据异常分析(第15问);

● 归因分析(第19问);

● 预测分析(第20问);

● 相关性分析(第21问)。

(3)落地建议。

这个阶段重要的是能给出落地(即业务可操作)的有效建议。借助积木可完成以下工作:

● 了解业务(第58~63问);

● 给出落地建议(第67问)。

这些积木能组成一个完整的分析流程“武器库”,当然这也只是一种方案。前面阅读本书的建议中提到分析阅读时,做概念笔记就是要形成自己的分析框架。而选择积木的过程,就是读者形成自己分析框架的过程。由此可见, 搭积木没有标准答案,会产生不同的组合方案。 而正是这些方案能适应不同的业务场景需求,对业务问题进行分析、解决。

读者从目录可以看到本书的内容非常丰富,但想进入一门学科,或者说想胜任一个岗位所需的知识却远不止这些。受限于篇幅, 笔者团队准备了一份与本书搭配使用的小册子,请扫码获取。

读者还可以通过关注微信公众号木木自由、数据分析星球、饼干哥哥数据分析,回复“72问小册子”获取。此外,本书勘误、知识加餐等内容也会放在小册子中。

小册子主要为实战服务,里面有许多开箱即用的代码。对于初学者而言,最好的学习途径就是“先模仿,再创作。”因此,读者可以阅读小册子,并按照教程进行代码工具的安装。然后把本书及小册子涉及的代码都跟着敲一遍,最后你会很神奇地发现对代码没有了抗拒,并且在持续的学习过程中会逐渐熟悉它们,甚至能用它们来提高工作效率。

第2问:数据分析是怎么来的?—数据分析极简发展史

导读:为了深刻认识数据分析,有必要对它的来龙去脉进行一番讨论。讨论来龙去脉不是为了考察数据分析的国内外发展史,而是从数据分析的发展中探索本质,建立底层认知。

1.了解数据分析发展

从游牧时代开始,就已经涉及数据分析了。例如,今天抓了一只野猪,明天抓了一只羊,所以猎物总共有两只,如何分配呢?羊可以养起来,因为羊可以产奶,给孩子补充营养;猪可以杀掉,一天吃不完,那就分两天吃,首领多分一些,其他人少分一些……这正是数据分析的早期应用。可见,数据分析的历史很悠久,可以说在人们开始使用数字的时候就已经有数据分析的意识了。

在过去的十年到二十年里,数据分析一直是非常热门的词汇,但是在更早的生产活动中,数据分析其实就已经存在了,只是那时主流市场并未产生需求。那数据分析是怎么成为咨询公司麦肯锡所说的“重要的生产因素”的呢?换句话说,热门的数据分析岗位是怎么产生的呢?

从下图的阿里发展史中,我们可以看到这样的发展路径:

(1)阿里创立自己的产品—1688网站;

(2)初创团队的成员开始联系批发贸易商入驻,即开展销售业务及网站运营工作;

(3)随着业务的发展,为满足市场需求,除了对现有产品进行迭代优化外,阿里还推出许多的产品:淘宝、天猫等,这背后需要有专业的产品经理支持,提高业务运营流程效率;

(4)随着规模的扩大、数据的积累,专业数据分析师的需求应运而生,借助数据分析、数据挖掘的方法论优化产品迭代、业务增长策略;

(5)随着数据的使用场景日趋成熟,数据使用需求也越来越大,需要通过衍生的数据产品来优化数据分析流程效率,如数据银行、达摩盘、策略中心。

当然这不是严谨的发展史,例如数据挖掘技术早在20世纪90年代就存在了,这里的发展路径更多是从主流市场的角度来理解,也可以说是求职市场的变化。例如2015年以前很少有专门的数据分析师岗位,后来随着大数据在工业界的普及、落地,市场对数据分析师的需求多了起来。再例如数据产品经理也是随市场的发展而兴起的。

2.窥探发展路径背后的业务场景需求

从数据分析的发展路径中,我们可以进一步去窥探其背后业务场景需求的变化:

在发展初期,市场还处在“开荒阶段”,那时的产品比较简单,对应的运营玩法也比较简单,此时体系不完善,主要 依赖经验、直觉来驱动业务增长 ,例如之前没有做广告投放,现在做了,效果就有了。

在发展中期,为了追求规模化,品牌需要不断去扩展边界,于是基于现有运营能力,把成功经验复制到其他细分市场的模式就很重要,进而成体系的运营方法论、产品方法论需求应运而生,也就是要 从以往经验中沉淀出泛化能力强的业务模型框架,来实现增长 。例如以往做用户运营,尝试过用近期消费距离、累计消费频次、累计消费金额来做用户分层运营,效果不错,因此可以把方法论总结成RFM模型应用到更多场景中。

度过了“野蛮生长”的增量时代后,市场竞争格局形成,竞争对手运营体系成熟,再想从增量市场抢夺用户成本将变得很高,而且手里的存量客户如果没有及时维护也容易被竞争对手夺去; 此时的业务需要更精准的方法来指导决策,于是代表理性、客观的数据登上舞台,数据分析就变得很重要 。例如运营中常说的“魔法数字”:利用数据分析方法计算RFM模型的特征阈值,能够得到更精准、有效的分层模型。

3.小结

从数据分析的来源中我们可以看到, 数据分析的定位从来都不是“雪中送炭”,而是在发展到一定程度,有了夯实基础之后的“锦上添花” 。此外,对数据分析来源的讨论,是为了说明一件事:数据分析并不独立,它来源于业务,最终又在业务落地。所以 想做好数据分析一定要懂业务 ,否则不论是分析逻辑还是最后的赋能建议都无法落地,无法实现数据分析价值。

第3问:什么是数据指标?

导读:了解完数据分析的发展后,本问开始,将从数据分析的核心—“数据指标”切入,建立全面的数据分析底层认知。数据指标是业务现状的反映,而数据分析也正是基于对业务现状的准确透视才能做出有效决策,因此,数据指标的重要性不言而喻。

为了建立对数据指标的完整认知,我们把数据指标拆成“数据”与“指标”,指标是数据之间的运算,是“衡量”事物发展程度的“模型”。也就是说通过“建立指标”评估“业务发展”是一个建模的过程,是把业务发展从物理世界映射到数据空间,只有这样才能使得“万物皆可计算”,这就是数据分析的基础。

为了厘清从数据到指标的建模过程,我们需要先对“数据”的概念进行讨论。

1.什么是“数据”?

数据是被存储起来的信息。从应用的角度看,数据是把事物做量化处理的工具。万物皆可数据化,数值是数据,文本、图像、视频等同样也是数据。

(1)按字段类型划分,可以把数据分为:

文本类:常见于描述性字段,如姓名、地址、备注等。

数值类:最为常见,用于描述量化属性,如成交金额、商品数量等。

时间类:仅用于描述事件发生的时间,是重要的分析维度(如同比、环比、累计等)。

(2)按结构划分,可以把数据分为:

结构化数据:通常指以关系数据库方式记录的数据。

半结构化数据:如日志、网页数据。

非结构化数据:如语音、图片、视频等形式的数据。

(3)根据数据连续的属性不同,可以把数据分为:

连续型数据:在任意区间可以无限取值,例如年龄、身高。

离散型数据:常见于分类数据,例如性别、年级。

2.如何理解“指标”?

指标的作用是“度量”业务,可以从三个角度对指标进行拆解:指标=维度+汇总方式+量度。

维度:从什么角度去衡量问题。

汇总方式:用什么方法去统计问题。

量度:目标是什么。

下面举两个例子。

订单数是指统计周期内,用户完成支付的订单数量总和。从维度、汇总方式、量度三个角度将订单数拆解,如下图所示。

复购率是指统计周期内,重复消费用户数(消费两次以上的用户)在总消费用户数中的占比。从维度、汇总方式、量度三个角度将复购率拆解,如下图所示。

3.数据指标如何落地使用?

了解完指标的底层逻辑(理论)后,更重要的是将指标在业务中落地。笔者团队结合数据分析经验,总结了以下数据指标的落地建议:

(1)指标基建 确保数据的完整、准确。

为了打下指标模型的稳固基础,需要对数据底层进行检视:

① 检视数据源头:埋点收集的事件数据是否足以支撑所需指标的建模。

② 脏数据清洗逻辑,也就是数据仓库中常见的ETL(Extract-Transform-Load,抽取-转换-加载)概念。

(2)从业务层面理解指标。

理解业务是数据分析落地的前提,有效地使用指标也同样如此,要求熟悉数据指标背后的业务含义。例如“会员成单数”这个指标本身有很多含义(针对以购买会员为主要商业模式的App):

● 直接含义:整个团队的业务完成能力。

● 会员成单数+成本:企业的盈利能力。

● 会员成单数+产品:产品畅销程度。

● 会员成单数+用户分层:用户的需求。

(3)从指标的变动中做决策。

为了判断业务现状的好坏、趋势,需要建立衡量标准,数据指标的使用同样如此。

通过某个孤立的指标不能反映现实,例如小明身高165cm,我们看不出小明的身高特征,但是当走来一个身高180cm的人时,我们就能判断小明相对比较矮,或者当我们拿到全国平均身高水平是167cm时,也能得出同样的结论。这就是利用对比思维建立标准的过程,对比的客体可以是横向的同属性对象、总体平均,也可以是纵向的历史数据。

如果是周期性变化,那很有可能是正常波动,可以初步判作“正常”。如果是“突发+下跌”,那很有可能是异常的波动,可以初步判作“问题”。

(4)指标的生命周期 不同阶段使用不同指标。

既然指标的作用在于反映业务,而业务的发展存在生命周期,那指标的使用也应存在时效性,即指标的生命周期。

沿着产品的生命周期来看,不同阶段使用的指标差异如下:

① 导入期:业务目标在于建立知名度,通过口碑引流,着重关注新注册人数、分享率指标。

② 成长期:业务目标在于通过不同渠道布局推广最大限度占有市场,着重关注新会员来源渠道占比等指标。

③ 成熟期:业务目标在于将前期流量变现,确保盈利规模,着重关注付费率、毛利率等指标。

④ 衰退期:此时,市场增量收缩,要求对存量人群精细化运营,着重关注复购率、重购金额占比等指标。

4.小结

在一定程度上,“数据指标”能揭示出产品用户的行为和业务水平状况。当然,我们也不能完全迷失在数据中,应注意以下几点:

● 数据不等同于实际场景,实际场景往往比数据更加复杂,分析时需要了解具象化的场景,而不是抽象的数据。

● 数据本身没有观点,分析时不能预设观点,只倾向于那些能够支持自己观点的数据。

● 数据具备一定的时效性,不同情况下,一些曾经的数据可能不再适用,需要找到新的数据指标。

总之,精确的数据无法代替大方向上的判断,不要过分迷恋数据,要做到具体问题具体分析,形成发现问题、分析问题、总结问题、解决问题的思路闭环。

第4问:常见的指标有哪些?

导读:为了帮助读者对数据指标有更直观的认识,本问将介绍常见行业的指标体系。前面我们说指标可以反映业务现状,但“隔行如隔山”,不同领域的业务之间存在明显差异。了解目标领域常用的指标,可以帮助我们快速熟悉业务。

1.互联网行业

互联网产品具有边际成本低、传播速度快等特点,由此造就了互联网产品用户量大、使用频率高、迭代速度快等优势。这样的业务场景下,数据分析能有更多的落地场景,因此经典书籍《增长黑客》里的增长方法论、案例等都是基于互联网产品展开的。

这里的互联网产品主要指的是C端的App、网站甚至是游戏(本质也是App)等,虽然不同行业的产品服务的人群、场景不同,例如滴滴服务的是出行场景,而淘宝服务的是购买场景, 但它们的底层逻辑是相通的,也就是可以借用同一套指标体系来进行数据分析。 只是在具体落地应用时,不同的场景会关注不同的数据指标。 请在本书前言扫码获取小册子,查看互联网行业常见的指标及定义。

2.零售行业

与互联网相比,零售行业显得更传统一些,但是在数据使用场景上,以沃尔玛为代表的大型零售商高度依赖数据对其供应链、选品等方面进行赋能提效。以淘宝为代表的电商行业,从1999年发展至今,已经积累了庞大的数据量,并在电商流程上形成了成熟的数据解决方案,帮助商家提高销售额、优化买家用户体验。

大数据时代产生了“人、货、场”的新零售概念,笔者团队则按该逻辑,为读者展示零售行业的数据指标体系全貌。零售行业常见的指标及定义详见小册子。

3.金融行业

与互联网、零售行业相比,金融行业的平稳运行特别依赖大数据,因此,找到更有效的数据指标以及分析方法非常重要。“数据分析”也为金融行业重塑业务提供了更多的、更广泛的思路和策略。

例如,金融部门进行风险管理、欺诈检测,识别数据中的异常或不良模式,并指示公司的安全部门采取适当措施降低风险。从金融消费者行为实时分析中获得有价值的见解,有助于改善个性化服务,以增加销售额并衡量客户的生命周期价值等。财务方面,则需要更加积极地运用“数据分析”来保护客户利益并促进金融服务行业的发展。金融行业常见的指标及定义详见小册子。

4.小结

做数据分析会遇见很多指标,我们应该清楚哪些要着重分析,哪些指标最契合当下的分析需求。注意,具体到不同业务,不同指标的定义可能略有差别,但是思路是一致的。

第5问:对于数据分析领域,统计学要学到什么程度?

导读:翻开贾俊平老师的《统计学》教材,400页的信息扑面而来,内容包括图形信息化、数据的集中趋势、概率计算、排列组合、连续型概率分布、离散型概率分布、假设检验、相关和回归等诸多复杂的知识点。初学者时常大呼“难学”,但实际上,学习是有“捷径”的,那就是“以终为始”—根据目标场景需求制订学习计划。那么,对于数据分析领域,统计学要学到什么程度呢?

1.什么是统计学?

统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合型科学。而数据分析是基于统计方法研究数据,其所用的方法分为描述统计和推断统计。

(1)描述统计。

描述统计是研究一组数据的组织、整理和描述的统计学分支,内容包括取得研究所需要的数据,用图表形式对数据进行加工处理和显示,进而通过综合、概括与分析,得出反映所研究现象的一般性特征。

描述统计主要应用在探索性数据分析阶段(Explore Data Analysis,EDA),在分析之前先对数据的结构、分布等特征进行了解,从而制订数据清洗、特征工程等方案。

(2)推断统计。

推断统计是研究如何利用样本数据对总体的数量特征进行推断的统计学分支,其内容包括抽样分布理论、参数估计、假设检验、方差分析、回归分析、时间序列分析等。

描述统计最经典的应用场景就是AB测试、销售预测。

2.如何开始?

开始学习统计学最重要的是从宏观上有一个初步的认识,如统计学大概包括哪些内容、能够做什么、解决哪些问题等,然后再深入细致地去了解它,这样的话,你在学习每一部分知识时,就能够清楚地知道该部分知识的地位和作用。接着以“搭积木”的思维,从基础开始,层层递进。最后在深入学习的时候,一定要结合自己目前的需求,有所侧重。

(1)推荐教材。

统计学相关的推荐阅读教材如下所示。

(2)针对数据分析,统计学要学到什么程度?

从广度来看:

首先要了解一些统计学的基本概念,例如描述型统计、假设检验、正态分布,然后再去学习统计学里的数据模型,例如聚类、回归,这些都是业务分析中必备的内容。

大部分的数据分析,都会用到以下统计学的知识,可以重点学习,而且这一部分概念简单,很容易掌握:

● 基本的统计量:均值、中位数、众数、方差、标准差、百分位数等。

● 概率分布:几何分布、二项分布、泊松分布、正态分布等。

● 总体和样本:了解基本概念,如抽样的概念。

● 置信区间与假设检验:学会如何进行验证分析。

● 相关性与回归分析:一般数据分析的基本模型。

● 数据展示图形(8种基础图形)。

以经典教材《统计学》为例,笔者团队对内容按入门、进阶进行了划分,对大多数初学者而言,仅需学习入门内容即可。随着数据分析工作的深入,对分析能力有拔高要求的读者,可以进一步学习进阶内容。 请在本书前言扫码获取小册子,查看统计学入门与进阶目录。

从深度来看:

前面说过知识点的学习需要“以终为始”,从需求场景出发,有落地应用场景的知识点才有必要深入学习,否则即使学习了,无用武之地也很容易忘记。对于初学者而言,重要的是掌握统计学的概念,不需要深究原理,但要知道如何“查看”及“应用”统计结果。

那只知道概念,不知道原理的话,在工作中要如何实践呢?实际上,绝大部分统计学的知识已经被封装成了开箱即用的工具。也就是说,相比于数学原理,实践中更重要的是会使用工具。例如使用Excel时,能利用它实现相关性分析、回归分析等复杂方法即可。对于进阶的工作内容,可能更多使用Python工具。同样,学会调包、调参即可满足90%的应用场景。

但是有一个场景是例外,那就是面试。我们常说“面试造火箭,工作拧螺丝”,尽管实践中能解决问题即可,但面试仍会要求我们懂得统计学高频知识点背后的数学原理。

3.小结

统计学是一门交叉性和应用性都很强的学科。统计学源于实践并用于实践,通常从实际应用问题开始,经过加工提炼,形成概率统计模型,并最终指导实践。一个问题的完整解决往往需要设计试验、数据处理分析、撰写总结报告等。因此,统计学是一名优秀数据分析人员必须具备的知识。

第6问:数据分析领域主要的岗位有哪些?

导读:随着大数据的兴起,数据分析相关的招聘也越来越多,但很多人对该领域的很多职位和工作内容仍然不是很了解。目前,数据分析领域主要有以下几类岗位:业务数据分析师、商业数据分析师、数据运营、数据产品经理、数据工程师、数据科学家等,按照工作侧重点不同,本问将上述岗位分为偏业务和偏技术两大类,并对每个岗位按照下图所示技能栈进行分析,阐述不同岗位的特点。

1.偏业务方向的数据分析岗位

偏业务方向的数据分析岗位一般归属于业务部门,有业务数据分析师、商业分析师、数据运营、数据产品经理等,该类岗位的职位描述如下图所示。

(1)业务数据分析师。

业务数据分析师需要将业务数据体系化,建立一套完善的指标体系,并完成数据提取、清洗、多维度分析及预测等工作,并生成策略推动落地。数据分析师可以基于指标体系进行拆解,逐层细化,抽丝剥茧,找到问题的根因。指标体系如果需要自动化监控,还需要进行BI报表开发,所以数据分析师也需要了解一些BI工程师的知识。

该岗位所要具备的技能栈如下图所示。

(2)商业分析师。

商业分析偏向经营和战略方向的分析,一般更加宏观,通常涉及业绩目标制定、各个渠道经营状况监控、业绩指标异常监控和量化归因并为决策者提供决策依据,同时还需要有敏锐的商业嗅觉,对市场、竞对有较为全面的认知,能快速察觉政策、竞对、市场风向等,并及时做出响应。

例如,想要开一家快递驿站,首先需要考虑在哪里开,这就要调查居民密度、居民消费能力、竞争对手、线上消费能力等因素。这些分析更加宏观,数据来源广泛,而且需要一些调研进行定性研究,和业务数据分析这种微观的分析有一些差异。

该岗位所要具备的技能栈如下图所示。

(3)数据运营。

数据运营主要负责运营相关数据的分析,为日常运营提供数据支持,协助运营人员制定运营策略和方案落地。

以活跃指标的下跌为例,需要分析的问题有:活跃指标下跌了多少?是属于合理的数据波动,还是异常波动?什么时候开始下跌?是整体的活跃用户下跌,还是部分用户?为什么下跌?是产品版本迭代,还是运营效果不佳?怎么解决下跌的问题?

该岗位所要具备的技能栈如下图所示。

(4)数据产品经理。

这个岗位比较新,要求同时具备产品经理和数据分析师的技能。它有两种定位:一种是具备强数据分析能力的产品经理,另一种是公司数据产品的规划者。

前者以数据为导向优化和改进产品。产品经理有更多的机会接触业务,可以顺便把数据分析师的活也干了,属于一专多能的典型。大到页面布局、路径规划,小到按钮的颜色和样式,数据产品经理都可以通过数据指标评估,擅长用分析进行决策。

后者是真正意义上的数据产品经理。随着数据量的与日俱增,会有不少与数据相关的产品项目,如大数据平台、埋点采集系统、数据可视化系统等。这些也是产品,但是更注重数据呈现,也需要提炼需求、设计、规划、项目排期,乃至落地。

该岗位所要具备的技能栈如下图所示。

2.偏技术方向的数据分析岗位

偏技术方向的数据分析岗位有数据开发工程师、数据挖掘工程师、算法工程师等,该类岗位有的归属研发部门,有的则单独成立数据部门。与偏业务方向的数据分析岗位相比,偏技术方向的数据分析岗位要求有更高的数理知识以及开发能力。

(1)数据开发工程师。

数据开发工程师更偏数据底层,其工作内容有数据采集、清洗、存储、建设数据仓库、数据应用、建设数据平台等。这个岗位基本不涉及数据分析的能力,而对大数据处理能力要求较高,需要较强的编程及架构设计能力。

在很多中小型公司,由于人力有限,数据分析师还会承担一部分数据开发工程师的工作,兼做一部分数据清洗、ETL和数据表开发的工作。

该岗位所要具备的技能栈如下图所示。

(2)数据挖掘工程师。

从概念上说,数据挖掘是通过一些数据挖掘算法(如分类、聚类、回归、预测、协同过滤、关联规则等)挖掘海量数据背后的业务价值。

如寻找共享单车最大效率的投放策略就是数据挖掘的工作范畴。数据挖掘工程师除了需要掌握算法基本原理,还需要很强的编程能力,如Python、Scala、Java,往往也要求具备Hadoop/Spark的工程实践经验。单看工作内容,数据挖掘对分析能力没有业务型数据分析那么高,但这不代表业务不重要,尤其在特征选取方面,对业务的理解很大程度会影响特征的选取,进而影响模型效果。

该岗位所要具备的技能栈如下图所示。

(3)算法工程师。

数据挖掘工程师可以继续精进成为算法工程师,后者对理论要求更高,不局限于简单的分类或者回归,还包括图像识别、自然语言处理、深度学习等领域。深度学习更前沿,它由神经网络发展而来。因为各类框架、模型较多,算法工程师除了要求熟悉TensorFlow、Caffe、MXNet等深度学习框架,对模型的应用和调参也是必备的,后者往往是普通“码农”和“大牛”的区别之处。

该岗位所要具备的技能栈如下图所示。

3.小结

上面介绍了数据分析相关岗位的主要工作内容,以及不同岗位之间的区别,大家可以基于自己的兴趣和特长选择相应的岗位。一般来说,对于新人,比较适合的发展路线是先成为一名业务数据分析师,积累一定的经验后,再决定是向商业分析、数据挖掘方向发展,还是精进成为数据运营经理、数据分析经理等管理层。但无论是偏业务的岗位还是偏技术的岗位,要想借助数据驱动业务产生价值,必须是业务和技术并重,业务是终极目的,技术是实现业务的手段,两者相辅相成,缺一不可。 2wUvUaLUWyNuKrlUP3yR9F4KMtUhGMzOXRH9kG1hAoKOFlUpapx5OTifBMLKnePf

点击中间区域
呼出菜单
上一章
目录
下一章
×