购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.1 常用统计量介绍

本节将对数据分析中常用的统计量进行介绍,明确在何种场景中需要使用这些统计量,这些统计量能传递什么信息。

2.1.1 集中趋势

平均数、中位数、众数3个统计量用于反映数据的集中趋势,这3个统计量的计算方法和使用场景如表2-1所示。

表2-1 反映数据集中趋势的统计量

下面举例说明反映数据集中趋势的统计量的应用方法,让读者对各统计量的计算方法与使用场景有更深入的理解。本例模拟将苹果按重量划分类别,划分标准为150~200克为小,200~250克为中,250~300克为大。

1.平均数

假设有5个苹果,它们的重量如表2-2所示。5个苹果重量的平均数为(220+235+210+215+240)÷5=224(克),类别划分为“中”,这组数据相对集中且没有异常值,因此通过平均数可以很好地反映数据的整体水平。

表2-2 平均数计算数据

2.中位数

假设有5个苹果,它们的重量如表2-3所示。5个苹果重量的平均数为(220+235+210+215+500)÷5=276(克),类别划分为“大”,很明显该划分结果与数据集中的多数数据不匹配。导致划分结果与多数数据不匹配的主要原因是有一个500克的苹果,属于异常数据。此时可以使用中位数进行判断,该组数据的中位数为220克,可以反映数据的整体水平。

表2-3 中位数计算数据

3.众数

假设有10个苹果,分别属于两个品种,它们的重量如表2-4所示。10个苹果重量的平均数为197克,中位数为200克。可以发现这两个统计量的差距不大,但都无法反映数据的整体水平。此时可以通过数据的众数160克、230克,反映两个品种苹果重量的整体水平。

表2-4 众数计算数据

2.1.2 离散程度

平均数、中位数、众数可以反映数据的集中趋势,但无法反映数据的离散程度。下面介绍四分位距、方差、标准差3个反映数据离散程度的统计量。

1.四分位距

将一组由小到大排序的数据划分成四等份,划分位置对应的数据为四分位数,如图2-1所示,Q1、Q2和Q3为四分位数。

图2-1 四分位数图示

四分位数的划分位置有两种情况,一种是划分位置在数值上,如图2-1中Q1和Q3在具体的数值上,那么这两个数值即为Q1和Q3的值;另一种是划分位置在两个数值之间,如Q2,其值的计算方法是划分位置两侧数值相加除以2。用第三四分位数减去第一四分位数即可得到四分位距,四分位距越小表示数据越集中。下面以判断考试分数等级为例对四分位数进行说明,分数等级判断标准如表2-5所示。

表2-5 分数等级判断标准

通过四分位数,可以明确划分的分数等级标准是否合理。按照划分的标准,72分属于等级C,但如果计算的四分位数分别为86、70、56、43,则说明72分实际是比较高的分数。

2.方差和标准差

方差是数据与平均数之差的平方和的平均数。标准差是方差的算术平方根,是衡量数据离散程度的统计量。下面计算表2-2中数据的方差和标准差,之前已经计算出数据时平均数为224,则

方差=[(220-224)²+(235-224)²+(210-224)²+(215-224)²+(240-224)²]÷5

=134

标准方差= =11.57

计算得到表2-2中数据的标准差为11.57。平均数反映的是数据的集中趋势,而方差则反映数据的离散程度。标准差可以用于判断平均数相同的两组数据中,哪组数据的稳定性更好。

2.1.3 可能性评估

日常生活中,人们判断某事件发生的可能性时,会说概率是多少。概率是描述一个事件发生的可能性的统计量,用于反映事件的不确定程度。表2-6所示为概率的相关概念。

表2-6 概率的相关概念

2.1.4 条件概率

日常生活中,人们经常会有这样的表述:如果明天不下雨,我就有90%的可能性去跑步。发生“跑步”事件受天气影响,明天不下雨则去跑步的概率是一个条件概率。关于条件概率需要理解以下两点。

(1)独立事件的判断。

两个事件间的独立性是指一个事件的发生不影响另一个事件的发生。 P AB )表示事件 A 和事件 B 同时发生的概率,如果 P AB )= P A P B ),则事件 A 和事件 B 是相互独立的。

(2)条件概率的计算公式。

事件 A 和事件 B 相关,且 P B )>0,在事件 B 发生的条件下,事件 A 发生的概率为 P A | B ), P A | B )= P A B )/ P B )。 12RJzDd7vzE+2P5CX8CFJkkvN3dckuM+Aa3hmIIfOU7ok7GpQgxzjcnrqueO8Jhy

点击中间区域
呼出菜单
上一章
目录
下一章
×