



本节将介绍数据分析的一些基本信息,使读者对数据分析有初步的了解。
简单来说,数据分析是通过人眼观察或相关分析工具,从错综复杂的数据中挖掘出有实际意义的信息,这些信息可能是现有数据的分布规律,也可能是对未来趋势的预测,它们都将为商业决策或个人行为提供帮助。
“数据分析”针对的对象是“数据”,要对“数据”做的事情是“分析”。不同的数据,其来源和复杂程度并不相同。无论数据的形式如何,分析数据时,首先需要对数据分类,分类后的数据才有进一步分析的意义。“分析”实际上是对数据做“比较”,只有对同类数据做比较,才能得出有价值的结果。
例如,在一个销售明细表中包含苹果、蓝莓、芒果3种产品在3个月内的销量,如图1-1所示。如果单独观察任意一种产品3个月的总销量,例如E2单元格中的600,通过这个数字只能获悉苹果这种产品3个月的总销量是600,再也得不到其他结论。
图1-1 3种产品的销量
如果对比该产品每个月的销量,通过这些数字可以发现更多有价值的信息,即哪个月的销量最多,哪个月的销量最少。如果对比3种产品在同一个月的销量,则可以得出“哪种产品的销量最多、哪种产品的销量最少”的结论,如图1-2所示。
图1-2 分类后的数字放在一起做比较提供有意义的信息
根据数据比较的结果,可以进一步分析导致销量最多和销量最少的原因,是季节因素还是其他因素,是产品质量好还是受众人群广。这个示例说明了“分类”和“比较”在数据分析中的意义。
在数据分析的过程中,通常需要使用大量的统计学概念和工具。在图1-2的示例中,对比各个产品在各个月份的销量后得出的结论,在统计学中属于描述统计学。如需根据现有的销售数据预测产品在未来的销售趋势,在统计学中属于推断统计学。描述统计学主要用于汇总从过去发生的事件中搜集到的数据,推断统计学主要用于预测某个事件在未来发生的可能性。
1.1.1小节其实已经给出了进行数据分析的原因——了解现状和预测未来。了解现状是为了对当前阶段进行总结,弄清楚哪些方面做得好,哪些方面做得不好,然后及时调整和改善。例如,总结企业现阶段的整体运营和财政收支情况,从而衡量企业的整体发展形势和状况。
预测未来是为了让企业更好的发展而制定的策略和计划。数据分析虽然面对的是大量枯燥乏味的数字,但是这项工作对企业的长远发展至关重要。从更广泛的角度来说,进行数据分析的原因有以下3点:
●数字化信息随处可见,无法避开数据分析。
●影响个人和企业的行为都依赖于数据分析。
●可以帮助个人和企业做出更明智的决策。
为了在分析过程中减少错误,最后得到正确的分析结果,在分析数据时需要遵循以下基本流程:
“数据分析”针对的对象是“数据”,所以首先要有数据。数据主要有两种来源,一种是将数据手动输入到数据分析软件中,例如Excel。另一种是将其他程序产生的数据导入到数据分析软件中。无论使用哪种方法,都要确保数据的格式符合数据分析软件的格式规范,以便数据分析软件能够正确识别和处理这些数据。
正如在上一个环节中提到的,无论是手动输入的数据,还是从外部程序导入的数据,通常都存在格式不规范、内容有错误等问题,所以需要对数据进行必要的“清洗”工作。“清洗”是指对数据本身涵盖的内容及其格式进行规范化处理,涉及的操作主要包括对数据的转换、提取、拆分、合并等。
业务复杂的数据通常存储在多个表中,当需要对业务涉及的所有数据进行分析时,需要先对整个数据建模。“建模”就是在所有表之间建立关系,将它们在逻辑上联接为一个整体,使分析工具通过表间关系在各个表中的数据之间无障碍地穿梭。为所有表建立关系后,就可以定义新的计算指标来丰富数据模型。创建有效的数据模型可以更准确地传达数据本身蕴含的信息,使用户可以更快、更有效地了解和使用数据,以后也更容易维护数据。
分析数据的最终目的是使分析结果易于被人理解,所以如何以易于识别和理解的形式展现数据就变得格外重要。图表是展现数据的有用工具,将数据以线条和形状等图形化的形式呈现出来,可以使晦涩难懂的数字变成直观醒目的图形,从而更容易洞察隐藏在数据背后的信息。