购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.2 数据分析的基本概念

数据分析与统计学密不可分,实际上,数据分析所依赖的正是统计学的概念和理论。例如,计算某个年度的销售总额、计算每个月的平均销量、计算加权后的平均工资、根据去年的销售额预测未来的销售趋势等,所有这些都要用到统计学方面的知识。本节将简要介绍统计学方面的基本概念,以便将其更好地运用到数据分析中。

1.2.1 定性数据和定量数据

分析数据前,首先需要明确区分数据的类型,因为不同类型的数据所适用的分析方法并不相同。如果对不同类型的数据运用同一种分析方法,可能会得到截然不同的结果,有些结果是毫无意义甚至是错误的,这会给商业决策带来隐患或严重问题。简单来说,当了解数据的不同类型及其特性之后,就会明白哪些数据适合计算总和,哪些数据只适合统计个数。

根据数据是否是数值型的,可以将数据分为定性数据和定量数据两种类型。所有非数值型的数据都是定性数据,性别、籍贯、发色、手机品牌等都是定性数据的示例。所有数值型数据都是定量数据,年龄、员工人数、销售额、销量等都是定量数据的示例。

虽然大多数数据都遵循上述划分原则,但是某些数值型的数据实际上也是定性数据。以学生的学号为例,第一个学生的学号是1,第二个学生的学号是2,其他学号以此类推。虽然学号是数值型数据,但是对它进行数学运算并无实际意义,学号只是使用非重复数字对每名学生进行标识,它并不具备数学意义上的计算。

对于定量数据,可将其细分为离散型和连续型两种。离散型定量数据的各个取值之间存在一定的“间隙”。“人数”是离散型定量数据的一个示例,人数可能是3个,也可能是5个,还可能是10个,但是绝对不可能是5.6个。离散型定量数据通常是通过计数得到的。

连续型定量数据的取值可以是指定范围内的任意值。“身高”是连续型定量数据的一个示例,身高可能是1.8米,也可能是1.78米,还可能是1.75米。连续型定量数据通常是通过测量得到的。

1.2.2 数据的测量尺度

划分数据类型的另一种方式是依据“测量尺度”。数据的测量尺度可分为名义尺度、顺序尺度、区间尺度、比率尺度4种,它们的级别由低到高依次排列,名义尺度的级别最低,比率尺度的级别最高。级别的高低决定了可对数据进行计算和分析的方式。

1.名义尺度

名义尺度数据没有顺序之分,通常只对它们进行分类和计数。“性别”是名义尺度的一个示例,性别分为“男”和“女”两类,可以先统计公司男员工的人数,也可以先统计女员工的人数,男员工和女员工没有先后顺序之分。“商品类别”也是一个名义尺度,可以统计超市提供的所有商品类别的总数,而商品类别中的各个分类之间没有先后顺序,可以将“饮料酒水”排在第一位,也可以将“米面粮油”排在第一位。

2.顺序尺度

比名义尺度高一个级别的数据是顺序尺度。与名义尺度相比,顺序尺度多了一个“顺序”的特性,可以对顺序尺度数据进行排序。例如,根据销售业绩对员工评级,分为优、良、中、差4个级别,此处的“级别”就是一个顺序尺度,因为各个级别之间有好坏之分,“好坏”意味着它们是有先后顺序的。最好的级别是“优”,比“优”差一点的是“良”,比“良”差一点的是“中”,最差的级别是“差”。但是无法知道“优”到底比“良”好多少,也就是说,对顺序尺度数据之间的差异无法通过数学运算得到某个具体的值,它们仅具有顺序关系。

3.区间尺度

比顺序尺度高一个级别的数据是区间尺度,该尺度具有顺序尺度的所有特性,同时还具有一个新的特性——数值之间的差值可被量化,且是固定不变的。温度是区间尺度的一个典型示例,两个温度之差表示相对温差,但两个温度相乘或相除却没有任何意义。温度中的0不代表没有温度,而也只是作为温度中的一个普通温度——0°。

4.比率尺度

比率尺度是位于最高级别的数据,该尺度具有区间尺度的所有特性,同时,数值之间的差异还能以比值的形式进行量化,而且0具有特殊的意义。销售量是比率尺度的一个示例,两个销售量的差值可以说明销售量之差,它们的比值也可以反映销售量相差的倍数。例如,如果1月份牛奶卖了500箱,2月份卖了1000箱,通过计算它们的比值,可以知道2月份牛奶的销售量是1月份的2倍。如果牛奶的销售量为0,则表示一箱牛奶也没卖出去。实际上,几乎所有的定量数据都是比率尺度,只不过对某些定量数据计算比值没有实际意义。

1.2.3 描述数据位置的指标

“位置度量”实际上就是人们所熟知的“平均数”,它用于确定一组数值的中心位置。算术平均数、加权平均数、几何平均数、中位数、众数等都是描述数据位置的指标。

1.算术平均数

最常见的一种平均数是算术平均数,其计算方法是使用所有数值的总和除以所有数值的数量。例如,A型号手机售价是1000元,B型号手机的售价是1500元,C型号手机的售价是2000元,如需计算这3种型号手机的平均售价,可以使用以下公式:

(1000+1500+2000)÷3=1500

由于算术平均数计算的是所有给定数值,所以当其中存在特别大或特别小的值时,计算得到的平均数将不能准确地表示该组数据的平均值。

2.加权平均数

加权平均数是算术平均数的一种特殊情况。当一组数据中有几个相同的值时,算术平均数就变成了加权平均数。例如,某种奶茶的容量分为大、中、小3种,大杯奶茶的价格是12元,中杯奶茶的价格是9元,小杯奶茶的价格是6元。奶茶店在上午卖出了10杯奶茶,其中有2个大杯、5个中杯、3个小杯。如需计算10杯奶茶的平均价格,可以使用以下公式:

(2×12+5×9+3×6)÷(2+5+3)=8.7

在上面的公式中,权重就是不同容量奶茶售出的杯数,即大杯奶茶的权重是2,中杯奶茶的权重是5,小杯奶茶的权重是3。计算加权平均数时,分母永远都是所有权重的总和。

3.几何平均数

当计算随时间推移的数据的平均值时,将会用到几何平均数。“随时间推移”是几何平均数的关键因素,因为在随时间推移过程中产生的每个值,都是基于上一个时间点的值进行计算的,也就是说,这将涉及累积值的问题。

例如,刚入职时的工资是6000元,今年工资上涨了10%,明年工资上涨了20%,在这两年之中,工资的平均年增长率是多少?如果使用算术平均数的计算方法,可能会得到15%的结果,但这是错误的,因为它将每年工资增长率的基础工资都设定为最初的工资6000元,而忽略了第二年工资的增长率是在上一年上涨后的工资基础之上的。

第一年工资上涨了10%,上涨后的工资为:

6000×10%+6000

6000×(1+10%)=6600

第二年工资上涨了20%,它所基于的起始工资是上一年上涨10%之后的工资6600元,而非最初的6000元。所以,第二年工资上涨20%后的工资为:

6600×(1+20%)=7920

如需计算工资的平均年增长率,需要分别计算每年增长率与1之和,然后将计算结果相乘,最后再计算该结果的2次方根。此处开2次方是因为计算的是两年,如果计算的是3年,则开3次方根。基于该计算方法,计算本例中的平均年增长率时,首先计算以下公式的结果为1.32。

(1+10%)×(1+20%)

然后对1.32开2次方后再减1,结果为0.1489,转换成百分比值为14.89%,该结果就是工资的平均年增长率。

4.中位数

由于算术平均数会受到特别大或特别小的值的影响,所以在这种情况下,中位数变得非常有用,它只考虑数据的位置关系,而不会让数据受到数值大小的影响。中位数只对可排序数据有效,这意味着名义尺度数据没有中位数,因为名义尺度数据没有顺序之分,也就不存在中间位置的概念了。

中位数是一组数据中位于中间位置的那个数据,这种情况针对的是有奇数个数据的情况。如果包含偶数个数据,则中位数是位于中间两个数据的算术平均值。无论数据的个数是奇数还是偶数,在取出中间位置的数据之前,必须先将这组数据升序或降序排列。升序是指按照数值从小到大的顺序排列,降序是指按照数值从大到小的顺序排列。

在1、5、2、4、3这组数字中,中位数是3。首先将这组数字从小到大排列,得到的是1、2、3、4、5,由于3位于这组数字的中间位置,所以该数字就是这组数字的中位数。

如需找出1、5、6、2、4、5这组数字的中位数,首先仍需将它们从小到大排列,得到的是1、2、3、4、5、6。所有数字的个数是6,由于它是一个偶数,没有绝对位于中间位置的数字,所以需要对位于相对中间位置的两个数字3和4求和,再除以2,得到的3.5就是这组数字的中位数。

5.众数

众数是一组数据中出现次数最多的那一个。无论哪种类型的数据,只要存在出现次数最多的数据,就存在众数。由于名义尺度数据没有中位数,所以众数对于该类型的数据更加有用。

在1、2、2、3、3和3这组数字中,由于数字3出现的次数最多,所以3是这组数字的众数。如果出现次数最多的数据不止一个,则将存在多个众数。在1、2、2、3和3这组数字中,由于2和3都出现两次,所以2和3都是众数。如果一组数据中的每个值的出现次数相同,可以认为这组数据没有众数或者每个数据都是众数。

1.2.4 描述数据离散程度的指标

如果在分析数据时只考虑平均数,则可能得出一些错误的结论。例如,城市A住房的平均售价为200万元,城市B住房的平均售价也是200万元。如果仅通过平均售价,可能得出“两个城市的住房平均售价的价格分布相同”的结论,实际情况果真如此吗?

如果仔细研究两个城市住房售价的具体价格范围,就会发现上述结论是错误的。例如,城市A的住房售价的价格范围在100万元~300万元,而城市B的住房售价的价格范围在50万元~350万元。虽然两个城市的住房平均售价相同,但是住房售价的价格分布并不相同。

为了在分析数据时得到正确的结论,除了考虑数据的平均数之外,还需要考虑数据的离散程度(也称为离中趋势或变异程度)。极差、平均离差、方差、标准差等都是用于描述数据离散程度的指标。

1.极差

极差的计算方式最简单,它使用一组数据中的最大值减去最小值得到。在1、2、3、4、5这组数字中,极差是4,使用最大值5减去最小值1得到。

2.平均离差

平均离差描述的是数据相对于分布的均值或中心的相对接近或相对聚集程度。在计算平均离差之前,需要先理解什么是离差。离差是一组数据中的每个值与该组数据的算术平均数之间的差值。在1、2、3、4、5这组数字中,算术平均数是3,这组数字的离差分别是以下几个:

1-3=-2
2-3=-1
3-3=0
4-3=1
5-3=2

可能已经发现,一组数据中各个值的离差之和等于0。为了计算平均离差,要对所有值的离差求和,然后除以所有值的个数。由于各个值的离差之和等于0,所以在对所有值的离差求和时,需要将每个离差转换为绝对值,以确保最后的求和结果不是0,这样才有实际意义。计算上面5个数字的平均离差的公式如下:

(|-2|+|-1|+0+1+2)÷5=1.2
3.方差

方差可用来比较两组或多组数据的离散程度。方差的计算方法与平均离差相似,但是在计算方差时,不是计算各个值与算术平均值之差的绝对值,而是计算各个值与算术平均值之差的平方,这样得到的必然是正数。然后对得到的所有平方求和,最后将求和结果除以所有值的个数。仍以前面示例中的1、2、3、4、5这组数字为例,计算该组数字的方差的公式如下:

((1-3)2+(2-3)2+(3-3)2+(4-3)2+(5-3)2)÷5=2

在统计学中经常会遇到两个术语——总体和样本。总体是所研究的个人、事物或者关于个人和事物的度量值的全部集合,样本是总体的一部分。上面公式计算的是总体方差,如需计算样本方差,需要将公式中用作分母的值减1,所以计算1、2、3、4、5这组数字的样本方差的公式如下:

((1-3)2+(2-3)2+(3-3)2+(4-3)2+(5-3)2)÷(5-1)=2.5
4.标准差

方差的平方根就是标准差。与方差类似,标准差也分为总体标准差和样本标准差。由于前面计算可知,1、2、3、4、5这组数字的总体方差是2,其总体标准差就是2的平方根,结果为1.414。1、2、3、4、5这组数字的样本方差是2.5,其样本标准差就是2.5的平方根,结果为1.581。

较大的标准差说明一组数据中的各个值比较分散地分布在均值周围,而较小的标准差说明一组数据中的各个值紧密地聚集在均值附近。

1.2.5 概率的基本术语和概念

概率是学习推断统计学的基础,此处将简要介绍概率的一些基本概念和术语。概率表示某件事发生的可能性有多大。概率是一个0~1的数值,包括0和1两个值,概率越接近1,表示事件发生的可能性越大;概率越接近0,表示事件发生的可能性越小。概率是1表示事件必定发生,概率是0表示事件绝对不会发生。

上面提到的“事件”是统计学中的一个术语,“试验”和“结果”是另外两个常用术语,这3个术语紧密相关。“试验”是执行的一项操作,试验的结果可能有多个,但是每次进行试验时只能得到其中一个结果。

“抛硬币”是介绍概率基本术语的一个易于理解的示例。“抛硬币”就是一项试验,抛一次硬币是一项试验,连续抛三次硬币也是一项试验。每次抛硬币后肯定有一面朝上,可能是正面,也可能是反面,“正面”和“反面”就是这项试验的两个结果,但是在抛起硬币时无法确定将会出现哪种结果。

无论每次试验的结果是正面还是反面,只要进行一次试验,就会产生一个事件。例如,抛一次硬币,结果是正面,这是一个事件。接下来连续抛三次硬币,结果分别是正面、反面、正面,这又是一个事件。

判断一个事件发生的概率有3种方法:古典概率、经验概率和主观概率。古典概率是通过希望的结果的个数除以所有可能结果的个数得到的。例如,抛一枚硬币出现正面的概率是多少?此处希望的结果是正面朝上,而结果的个数是1,而抛硬币一共有“正面”和“反面”两种可能的结果。因此,通过古典概率推断抛一枚硬币出现正面概率的公式如下:

1÷2=0.5

经验概率是根据事件已发生的次数占已知试验次数比例的一种推断概率的方法。仍以抛硬币为例,如果只抛一次,则出现正面的经验概率可能是0或者1。如果不断增加试验次数,出现正面的经验概率将会逐渐接近0.5。

主观概率是通过个人的经验主观推断出事件发生的概率。下面是两个主观概率的示例:

●根据今天的天气状况,估计明天下雨的概率。

●根据晚饭后的饱腹感,估计半夜吃夜宵的概率。 Mfz7Al12o2TjpswP97zJJaZT8KIMmnDIl89SYjWrymXcu8zJpBQnmcXgn3LdeeeP

点击中间区域
呼出菜单
上一章
目录
下一章
×