小白: 老姜,听完您讲述后,我觉得数据分析的工作内容还挺有意思,想尝试一下。不过,不知道入门需要学习的东西多不多,门槛高不高。
老姜: 首先,入门数据分析师门槛不算高,在零基础的情况下,全身心投入准备,一般3个月左右基本就够了;其次,要达到入门级水平,需要在数据分析知识以及数据分析工具上多下些功夫。下面,我会详细为你介绍一下需要学习的内容,帮助你尽快入门。
小白: 太好了,那我们就开始吧!
数据分析是统计学与计算机学的交叉学科,要想从容地从事此行业,没有扎实的理论基础是万万不行的。数据分析的理论基础,主要有三个模块,即统计学知识、数据库知识、算法知识,如图1-3所示。
图1-3 数据分析的理论基础
鉴于前期准备时间有限,因此在图中标注了知识的重要程度(数字越小越重要)供你参考。下面我会详细介绍每个模块的重点学习内容。
统计学是数据分析工作中的核心理论基础,内容会渗透到工作中的方方面面,同时在面试环节也会经常被问到,重要程度可见一斑。核心知识点主要涵盖以下几个方向。
· 描述性统计: 通过概括性的数学方法及图表展示,描述业务的发展现状。主要涵盖集中趋势、离散程度、频数分析、概率分布等。 重点工作场景有周报/月报、业务调研摸底、实验效果评估等。
· 假设检验: 用于判断样本与样本、样本与总体之间的差异,是由抽样误差所致还是数据本身存在的。主要涵盖T检验、Z检验、U检验、卡方检验、方差齐性检验、秩和检验等。 重点工作场景有异动分析问题挖掘、实验显著性校验等。
· 分类分析: 在已知样本分类的前提下,通过各个特征值,判断样本类别归属的一种多变量统计分析方法。主要涵盖线性分类、非线性分类等。 重点工作场景有用户购买预测、用户流失预测、用户画像标签建设等。
· 相关性分析: 用于衡量两个或多个变量之间的关系密切程度。主要涵盖单相关、复相关、偏相关等。 重点工作场景有分析功能与留存之间的关系、度量模型特征间的相关性等。
· 回归分析: 通过两个或多个自变量之间的依赖关系,拟合因变量的统计分析方法。主要涵盖一元线性回归、多元线性回归、逻辑回归、非线性回归、时间序列回归等。 重点工作场景有指标预测、标签预测等。
数据分析=数据+分析,从数据库中获取数据是分析的前提条件,因此,作为一名数据分析师,也要掌握数据库的基础知识。虽无须像数据工程师那样专业,但要对数据库的原理及设计规范有一定的认知。在面试的时候,也会或多或少涉及数据库的基础知识。
在入门阶段,算法知识的优先级会相对低一些,但当从事数据分析工作后,核心的算法知识还是需要掌握的,可以帮助你扩充职场发展空间。其核心内容主要涵盖以下几个方向。
· 特征工程: 模型搭建的首个步骤,将数据加工成模型可输入的格式。其中涵盖特征清洗、特征转化、特征提取、样本调控等。
· 分类算法: 根据已知类别样本的先验知识,预测未知类别样本所属的类别划分。其中涵盖KNN、逻辑回归、朴素贝叶斯、支持向量机、决策树、集成学习算法、深度学习等。
· 聚类算法: 在未有先验知识的前提下,预测样本所属的类别划分,遵循“物以类聚,人以群分”的原则。其中涵盖 K -means、层次聚类、DBSCAN等。
· 回归算法: 研究自变量与因变量之间拟合关系的算法,经常用在预测场景中。其中涵盖线性回归、逻辑回归、多项式回归、岭回归等。
· 关联算法: 用于度量事物与事物之间关联程度的算法。其中涵盖Apriori、FP-growth、Eclat、灰色关联法等。
· 评估方式: 模型的效果是否能在线上数据中取得好的成绩,需要以量化的方式进行度量。其中,分类模型的评估方式主要涵盖准确率、召回率、F-Score、ROC、AUC等;回归模型评估方式主要涵盖均方根误差(RMSE)、判定系数( R 2 )等。
如果说数据分析知识是从事数据分析岗位的软技巧,那么数据分析工具就是行业必备的硬技巧。数据分析工具主要有四个方向,即数据获取、数据分析、数据展示、数据汇报,如图1-4所示。
所谓“巧妇难为无米之炊”,从数据库中获取所需的数据是分析的前提条件。在这个过程中,SQL(Structured Query Language,结构化查询语言)是必须要掌握的,也是从业的必备技能。
图1-4 数据分析工具
数据获取后,分析是日常工作的核心环节,通过数据的加工处理,探索其中的业务价值。这里主要涉及以下工具。
· Excel: 不高端但好用,是数据分析岗位入行必备工具。
· SPSS: 数据统计与应用软件,善于处理中小型数据量,通过可视化界面及点选型操作,完成常规的统计分析。可满足数据管理、统计分析、图表分析等内容。
· Python、R: 功能丰富,上限较高。可满足数据处理、数据分析、模型搭建、数据可视化等。虽然不是初学者入门必备,但却决定着个人能力的上限。
· EViews、SAS: EViews在时间序列场景中应用较多;SAS在银行、金融领域应用较多。这两个工具目前了解即可,需要应用时再深入研究。
数据分析结论输出后,往往需要配合图表进行展示。Excel、Python Matplotlib基本可满足需求,但如果希望追求更加好看的图表及例行化的输出,专业的BI工具是必要的。Tableau、神策数据、PowerBI、FineBI都是不错的选择,可以尝试应用。
数据对于业务的价值,需要通过汇报让高层知晓,PPT是数据汇报最常用的工具,也是工作中的必备技能。同时,Xmind在绘制思维导图上表现很好,推荐配合PPT进行应用。
希望本节的学习可以帮助你了解入行数据分析所需要的技能点,从而在有限时间内,有针对性地进行学习发力。