



数据分析是一个跨领域的学科,而不是单一领域的学科。数据分析人员必须同时掌握不同领域的知识,需要有跨领域合作的思维。
要完成一个好的数据项目,靠的不能只是一个厉害的强者,而是需要一支合作无间的数据团队。换句话说,只要能够找到一个在团队中的位置,人人都有机会参与数据项目。不过,找到这个位置也不是那么容易的,相关人员需要具备跨领域的复合技能与沟通合作的硬实力。
数据分析技能可以分为3种:程序技术、理论分析与专业应用。
● 程序技术:Python、数据清理、数据工程。
● 理论分析:统计分析、数据挖掘、机器学习、深度学习。
● 专业应用:数据分析、数据爬虫、人工智慧。
程序技术员指的是擅长程序开发的人,有比较扎实的工程背景,适合往数据工程方向发展。数理分析能力比较强的人一般具有较好的理论分析能力,其可能具有数学统计或信息背景,可以深入研究数据分析领域或机器学习分析领域。如果一个人写不好程序、也不擅长数学,那么他是不是就难以入门数据分析呢?答案是否定的。拥有某一个领域专业背景的人,也可以往专业应用的方向发展。在擅长领域中积累知识、找出数据分析可以发挥的空间也是一件很重要的事情。这类人需要的是“相信数据分析的信念”与跨领域沟通的能力。数据分析人员如图1.7所示。
图1.7 数据分析人员应具备的学科知识
数据分析技能那么多,那么技能该怎么学,该从何学起呢?在不同的数据分析教材或课程中,学习地图或课程规划都不太相同,这意味着学习数据分析其实并没有一条绝对的道路。对于新手,建议其首先学好一个程序语言,其次学习相关的系统工具,然后把一个基本的分析过程从头到尾研究透彻,最后就可以摸索自己适合在数据项目团队中的角色了。在学习过程中,数据分析人员应培养与不同角色沟通合作的能力,逐步学习各种数据分析技能,最终成为一个独立的数据分析人员。简单来说,数据分析人员应先学会基本技能,再通过大量的项目掌握完整技能。
那么如何开始数据分析呢?首先挑选一个自己感兴趣的数据集,找出一个可以回答的问题,然后根据这个问题找到一个最基本的原型解(Prototype Solution)来检验这个问题是否可解,通常就是选用最简单的模型当作基础线(Baseline);接着从基础线开始对解进行优化。一般来说,我们可以从以下两种角度进行优化:更好分的数据和更厉害的模型。
(1)更好分的数据:从数据下手,对数据进行转换与重组,称为“特征工程”。
(2)更厉害的模型:利用复杂的模型,如集成式或深度学习的模型。
除了对模型的准确度进行优化之外,速度与代码质量也是重要的优化指标。
我们可以先利用原型解建立一个基础线的工作流,将预处理与模型比较分为不同的模组;持续从不同的角度进行调整,去观察做哪些动作会造成怎样的优化,最终慢慢提炼出适合数据的手法;建立数据工作流与优化模组之后,就可以快速地将其迁移到类似的数据与问题上;通过反复练习,从每次的调整中让自己更从容地查看数据。