购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第一节
贸易行为数据描述性统计

在对贸易数据分析的时候,一般首先要对数据进行描述性统计分析( descriptive analysis),以发现其内在的规律,再选择进一步分析的方法。描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布,以及一些基本的统计图形,常用的指标有均值、方差、标准差、众数等。

描述性统计指标大致可分为三类:集中趋势指标、离散趋势指标和分布形态指标。

一、集中趋势指标

(一)众数

众数是指出现次数最多的那个变量值。

比如有一组数据:一个班学生的分数分别为 60、70、70、80、90、100,其中除了70 分出现了两次,其他分值都只出现一次,那么 70 分就是出现次数最多了,也就是众数为 70。

不过关于众数还会出现下面的情况:

有的数据中会没有众数或者存在多个众数。

(1)没有众数。比如这组数据,一个班学生的分数分别为:50、60、70、80、90、100,它们每个分数值都只出现一次,这种情况的数据就没有众数。

(2)有多个众数。比如一个班学生的分数分别为:50、60、60、70、80、80、90、100,其中 60 分和 80 分这两个值都出现了两次,它们哪个是众数呢?那就是它们两个都是众数。

所以你要在一组数据中找众数,可能会碰到三种情况:①没有众数;②一个众数;③两个或多个众数。它不像平均值,对一组数据求平均值,就可以得到唯一的一个值,这是众数的一个特点——不唯一性。

(二)平均数

平均数又称均值,是最常用的一个数据代表值,平均数既可以描述一组数据本身的整体平均情况,也可以用来作为不同组数据比较的一个标准。

根据样本数据的不同格式,这里介绍两种常见的算术平均数的计算方法,一种是简单算术平均数,另一种是加权算术平均数。

我们都知道在进行数据分析时,通常有两种数据格式。一种是常规格式(非加权格式),另外一种是加权数据格式。分别说明如下:

1.常规数据格式→简单算术平均数

第一种常规数据格式(非加权格式),一行代表一个样本,如果有 100 个样本即为100 行;一列代表一个属性;这类格式最为常见,而且此类数据格式可以做任何的分析。因为其携带着所有最原始的数据信息。常规数据格式如表3-1 所示。

表3-1 常规数据格式

此时使用简单算术平均数计算,公式如下:

这就是我们小学学的计算平均值的方法,把要算的这组数据的每个数相加,然后除以样本数。

2.加权数据格式→加权算术平均数

比如收集 100 个样本,最终男性 40 名,女性 60 名,录入的数据为汇总统计数据,单独一列(或多列)表示各类别的样本数量,如表3-2 所示。

表3-2 加权数据格式

这种数据格式就不是原始的数据,而是经过分组整理了,此时使用加权算术平均数计算,公式如下:

从上式可以看出,平均值的计算与样本的每一个数值都有关,所以比较有代表性,但这是在数据没有极端值的情况下。如果出现极端值,平均数就有可能不足以代表大多数样本个案的性质。

比如,一个班的五位学生考试成绩分别为:10、70、80、90、100。

根据数据格式,算一下它的算术平均值:

这五位学生的算术平均值是 70 分,观察原始数据,有四位学生的分数大于或等于70 分,只有一位学生的分数低于 70 分,因此,用 70 分来代表这组数据的集中情形是不恰当的。再观察原始数据,是 10 这个极端值,一下拉低了整个平均分,所以我们去掉这个 10 分的考试成绩再算一下剩下四位学生的算术平均值:

85 分就可以比较好地代表4 位学生的集中趋势了,两位同学分数低于 85,两位高于 85 分。

(三)中位数

中位数是样本数据升序排列后的最中间的数值,如果数据偏离较大,则一般用中位数描述整体水平情况。

中位数的计算分为两种情况:

(1)当数据个数为奇数时,中位数即最中间的数,如果有 N 个数,则中间数的位置为( N + 1)/2。

比如,一个班的 5 位学生的成绩分别为:30、70、40、50、80,中位数是什么呢?

第一,先把这五个分数从小到大排序:30、40、50、70、80。

第二,算出中位数应该在排序后的数列中的位置:(5+1)/2 = 3。

第三,中位数就正好是处在第三个位置的分数值,即 50。

(2)当数据个数为偶数时,中位数为中间两个数的平均值,中间位置的算法是( N + 1)/2。

比如,一个班有六位学生,考试成绩分别是:30、70、80、40、90、60,中位数是什么呢?

第一,先把这五个分数从小到大排序:30、40、60、70、80、90。

第二,算出中位数应该在排序后的数列中的位置:(6+1)/2 = 3.5。

第三,因为位置必须是整数,但现在是小数,所以为了公平,把在 3.5 左右两个位置(第三位和第四位)都拿出来。取两个位置的分数值的平均值作为中位数:(60+70)/2 = 65。

从中位数的计算方法可以看出,它和每个数据的位置有关系,所以如果有极端值出现,无论是特别大或特别小的极端值,都会因为对所有样本数据排序的这个动作,而被排列到某个数列的两端去。它不会有机会被排序到中间位置,而中位数是最中间位置的数,所以极端值不会影响到中位数,这样当有极端值出现,我们无法用平均值很好地描述数据情况时,就可以使用中位数。

二、离散趋势指标

(一)极差(全距)

极差的计算很简单,极差等于最大值减最小值,因为计算简单,概念清晰,所以应用比较广泛。

比如,有一组同龄男孩的身高(单位:厘米)分别为:90、95、100、105、110,算出极差。

①首先找出最大值和最小值:90、110。

②极差等于最大值减去最小值:110-90 = 20。

极差易受极端值影响。既然极差这个值是由一组数据中的最大值和最小值来确定的,那么相应地就需要考虑以下问题,即数据的最大值和最小值是不是正常数据?算下来的极差对分析数据的离散特征是不是有意义的?假如数据存在极端值,极差会受到影响。

(二)四分位数

把全部数据从小到大排列并分成四等份,处于三个分割点位置的数值,即为四分位数,如图3-1 所示。

上四分位数(数据从小到大排列排在 75%位置的数字,即最大的四分位数);

下四分位数(数据从小到大排列排在 25%位置的数字,即最小的四分位数);

中间的四分位数即为中位数。

图3-1 四分位数

四分位数可以很容易地识别异常值,多应用于统计图中的箱线图绘制,箱线图就是根据四分位数做的图。

四分位数和中位数的计算方法一样,不同的是中位数要找的是位于排序数列被分为两半后最中间的数,四分位数要找的是数据被分为四段,从左到右在 1 /4 处的数和从右到左在 1 /4 处的数。

(三)方差与标准差

方差是每个数据值与全体数据的平均数差的平方的平均数。标准差是对方差开方的值。方差与标准差反映一组数据的平均离散水平。方差小,表示数据集比较集中,波动性小;方差大,表示数据集比较分散,波动性大。

方差计算公式如下:

标准差是方差的正平方根:

如:一组数据为 2、5、8。计算方差和标准差。

先求平均数:(2+5+8)/3 = 5

然后求方差:把数据带入方差公式。

求标准差:给方差开平方。

(四)变异系数

变异系数,也叫离散系数,是标准差和平均值的比值。变异系数用于观察指标单位不同时,如身高与体重的变异程度的比较,或均数相差较大时,如儿童身高与成人身高变异程度的比较。变异系数大,说明数据的离散程度大。

变异系数计算公式如下:

如:某地 7 岁男孩身高的均数为 123.1 厘米,标准差为 4.71 厘米;体重均数为22.92 千克,标准差为 2.26 千克,此处不能因为 4.71>2.26,就说身高的变异比体重要大,而要考虑到两者的单位不同,无法直接比较,故采用变异系数来解决这类问题,它实质上是一个相对变异指标,无单位。

上述 7 岁男孩身高、体重的变异系数分别为

可得到 7 岁男孩身高比体重的变异小的结论。

三、分布形态指标

(一)峰度

峰度是描述正态分布中曲线峰顶尖哨程度的指标。峰度系数>0,则两侧极端数据较少,比正态分布更高更瘦,呈尖哨峰分布;峰度系数<0,则两侧极端数据较多,比正态分布更矮更胖,呈平阔峰分布。

(二)偏度

偏度是以正态分布为标准描述数据对称性的指标。偏度系数= 0,则分布对称;偏度系数>0,则频数分布的高峰向左偏移,长尾向右延伸,呈正偏态分布;偏度系数<0,则频数分布的高峰向右偏移,长尾向左延伸,呈负偏态分布。

四、操作

下面通过实例一起来学习一下吧。(同样你可以用SPSS、 SAS等软件进行解决。)

(1)做描述性统计分析的前部工作就是缺失值的填充(首先保证数据的有效性),之后还需要做一下正态性的检验,在这里我们只学习用Excel如何进行描述统计分析的部分,如图3-2 所示。

图3-2 使用Excel进行描述统计分析

(2)首先判断数据的异常值,比如,空值、最大值太大、最小值太小,还有数据类型是否一致等,在这里不作强调。

(3)点击【数据】选项卡,找到【数据分析】,如果没有,请按照【文件】→【选项】→ 【加载宏】→ 【加载项】的顺序进行加载勾选,如图3-3 至图3-6 所示。

图3-3 实验操作步骤(1)

图3-4 实验操作步骤(2)

图3-5 实验操作步骤(3)

图3-6 实验操作步骤(4)

(4)选择【数据分析】,找到【描述统计】选项,进行选择,具体选择样式,请见图3-7、图3-8。

图3-7 实验操作步骤(5)

图3-8 实验操作步骤(6)

(5)填写完成后,点击确定即可,得到想要的结果,最终结果如图3-9 所示。需要说明的是,你选择一项(一列/一行)数据进行分析都是可以的。

图3-9 实验操作步骤(7)

(6)最后得出了基本的结果,但还需要进一步检验,这个需要运用统计学的概念性公式的知识,可以自己学习其他的经验。 Muj/7qBYezci1RBC7xLfbOAUYN1Mk4+qrNWxobtdRTU0eIfk6zLud4MB+dBFG3H2

点击中间区域
呼出菜单
上一章
目录
下一章
×

打开