购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.1 基本概念

本节介绍常见的数据类型和常用统计量。数据类型包括结构化数据和非结构化数据,其中结构化数据又分为数值型数据、顺序数据和分类数据等。常用统计量有四分位数、平均差、方差和标准差等。

2.1.1 不同的数据类型

统计数据可分为结构化数据和非结构化数据。结构化数据指的是长度和结构都固定的数据,大部分统计表格都属于此类。非结构化数据指的是难以用常规表格存储的数据。

结构化数据又可分为多种不同类型。最常见的3种结构化数据是数值型数据、顺序数据和分类数据。

数值型数据是最常见的数据,也是生活中应用最多的数据。气温、价格及上班时长都属于这类数据。连续性是数值型数据的重要特性,而且数据之间具有明确的大小关系。因此,数值型数据也叫作连续型数据。

还有一些数据不是数值型数据,但同样也在统计学的研究范围中。例如,月份只有12个取值,而且不是连续的,不存在5.3月这种说法。同时,不同的月份之间具有大小关系,12月要比1月大。我们将这种存在大小关系的非数值型数据称为顺序数据。

另一个典型的顺序数据是学历。一个人的学历可以是“小学”“初中”“高中”“大学”中的任何一个。为了便于进行统计分析,通常使用1、2、3、4来指代“小学”“初中”“高中”“大学”。

显然,初中学历要优于小学学历,大学学历又要优于高中学历,即此处的1、2、3、4具有大小关系,但不能说“小学”与“初中”之和等于“高中”,即此处的1、2、3、4不能像数值型数据那样进行四则运算。

最后一类数据是不存在大小关系的非数值型数据,将之称为分类数据。一种典型的分类数据是季节。季节有4个取值,分别是“春”“夏”“秋”“冬”,也可以使用1、2、3、4来指代它们。但是这里的1、2、3、4只是一个符号,而不具备任何数学上的特点。性别是另一个典型例子。

最典型的非结构化数据是文字、图像和音频。

以微博为例,由于每条微博的长度不一样,其包含的词语个数不一样,每一行数据的长度也就不一样,无法用一个列数固定的数据表来放置这些数据。

图像数据与音频数据有类似的问题,在存放这类数据时,难以用一个或几个简洁的词语来描述每张图像或每个音频的主要内容,也难以用一个固定格式的数据表来存放从中抽取到的信息,总之,具有这些特征的数据就称为非结构化数据。

介于结构化数据和非结构化数据之间的数据称为半结构化数据。半结构化数据的特点是它的数据是有结构的,但是结构的变化很大。

员工简历是一个半结构化数据的例子。员工简历通常可以分为个人信息、教育经历、项目经历和技术技能等。每一份简历都可以分成几个部分,即每一份简历的内部都存在一定的结构性。但是纵览全部简历,不同简历的结构又各不相同。有的简历没有技术技能,有的简历又多了一部分实习经历。

提示

结构化数据可直接进行统计分析,而在对非结构化数据和半结构化数据进行统计分析时,必须先将其转化为结构化数据才行。

2.1.2 常用统计量

统计量指的是用来对数据进行分析的指标,它们共同刻画数据的特征,包括离散程度、分布均匀程度等,表2.1所示是一组有关小球的数据,当小球颜色不同时,其个数和体积也不同。

表2.1列出了12个小球的数据,其中蓝色小球有1个,体积是5立方厘米;白色小球有2个,体积是1立方厘米;绿色小球有5个,体积是0.6立方厘米;红色小球有4个,体积是0.5立方厘米。

表2.1 小球数据分布表

26-1

不难得知,这组数据的均值是 ,中位数和众数都是0.6。其中中位数指的是将数据从大到小排列后,处于最中间的数。如果数据的个数是偶数,就取最中间两个数的均值作为中位数。众数则指的是出现次数最多的数。

提示

这3个数据都能够反映数据的中心,与中位数相比,均值更容易受到极端值的影响。例如,在上述例子中,蓝色小球的体积就拉高了均值。而中位数则更加稳定,不会受到极端值的影响。

以上结论反过来也成立。如果一组数据的均值远远大于中位数,就意味着数据中存在非常大的值;如果一组数据的均值远远小于中位数,就意味着数据中存在非常小的值;如果一组数据的均值与中位数十分接近,则可能是数据中没有异常值,也可能是数据中同时存在非常大的值和非常小的值,二者对均值的影响相互抵消。

在度量数据中心时,中位数的稳定性要好于均值,但均值却比中位数更为大众所接受。为了增加均值的稳定性,可以使用去尾均值来代替均值,即去除样本中的最大值和最小值后,再计算均值。在歌手比赛中,有时就会去除最高的评委打分后再将几个评委打分的均值作为歌手得分,这就是一处去尾均值的应用。

均值的另一个衍生统计量是加权均值。下面将表2.1略做变化,如表2.2所示。表2.2用出现概率代替了个数,由于每种颜色的小球出现概率不同,因此均值就不能将体积简单平均,而应使用加权均值,其计算公式为5×0%+1×20%+0.6×50%+0.5×30%=0.65。

表2.2 4种小球的出现概率

27-1

加权均值适用于样本已经分组,或者样本之间的重要程度不一致的情况。例如,在计算经济发展指标时,由于大企业对经济的影响力要远远强于小企业,因此,在根据企业利润率计算经济发展指标时,就应给大企业赋予一个较大的权重,以体现其较强的影响力。

除加权平均数外,常用的数值平均数还有调和平均数和几何平均数等。它们分别适用于几种不同的情况,均反映了数据的中心。

另一种能够反映数据分布的统计量是四分位数。将全部样本点所在的区间看作一条数轴,中位数指的是处于50%位置的数,四分位数指的是处于25%位置与75%位置的数。

较大四分位数与较小四分位数之差称为四分位差,它反映的是一组数据四分位数处的信息。平均差是另一个能够反映数据中全部信息的统计量。平均差是各个数据与其均值的离差绝对值的算术平均数,其计算公式为 。此二者都反映数据的离散程度。

常用于衡量数据离散程度的统计量还有方差和标准差。方差是各个数据与其平均数离差平方的平均数,其计算公式为 ,方差越小,就说明数据的集中程度越高。方差与平均差类似,但方差的波动性更大,当数据的离散程度较高时,方差将远远大于平均差。

标准差则是方差的平方根,也称为均方差。观察方差计算公式,可以发现当某一个数据接近均值时,对方差的影响比较小;当某一个数据远离均值时,则会引起方差较大的增长。与平均差相比,方差对偏离均值较远的数据更敏感。一组数据的离散程度正是由那些偏离均值较远的数据决定的,因此,在反映数据离散程度时,方差的效果要优于平均差。

此外,平均差只能用于数值型数据,方差和标准差则可用于分类数据和顺序数据。以二分类变量为例,假设其中某一类变量出现的概率是 p ,另一类变量出现的概率是1- p ,则该变量的一组数据的方差计算公式为 p ×(1- p ),标准差计算公式为 1QVz/3+IZ/x4XQI+aPiSBbJ4Txc9qcPBl7FOOPGWKZ0A8L/FI0MIaioyXD4zSTSJ

点击中间区域
呼出菜单
上一章
目录
下一章
×