购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第一节
集中趋势与离散趋势

描述统计学是描绘数据资料特征最有效的手段,主要目的是了解数据的集中趋势和离散趋势。在广告研究中,了解数据的集中趋势和离散趋势可以使我们知道收集到的广告数据分布状况,以判断两组或两组以上数据的分布状况是否相同。

一、集中趋势

集中趋势的测量值有多个,主要有三种统计指标:算术平均数、中数和众数。

(一)算术平均数

算术平均数也就是均值(Mean),是数据集中趋势最主要的测量指标。不论统计分布是对称或是偏态,只有均值点上才能支撑这一分布,使其保持平衡,物理学上也称为重心。

其中,∑ X i 表示所有数据之和,即:∑ X i X 1 X 2 + ……+ X i ,n为数据个数, 表示平均数。

算术平均数的特征:

(1)观察值的总和等于算术平均数的n倍。

(2)观察值与其算术平均数之差的总和等于零。

(3)若一组观察值是由两部分(或几部分)组成,这组观察值的算术平均数可以由组成部分算术平均数而求得。

算术平均数是后面几个统计量的基础,它具备一个良好的集中量所应具备的条件:

(1)反应灵敏。

(2)严密确定。简明易懂,计算方便。

(3)适合代数运算。

(4)受抽样变动的影响较小。

除此之外,算数平均数还有几个特殊的优点。

(1)只知一组观察值的总和及总频数就可以求出算术平均数。

(2)用加权法可以求出几个平均数的总平均数。

(3)用样本数据推断总体集中量时,算术平均数最接近于总体集中量的真值,它是总体平均数的最好估计值。

(4)计算方差、标准差、相关系数及进行统计推断时都要用到。

算术平均数的缺点:

(1)易受两极端数值(极大或极小)的影响。

(2)一组数据中某个数值的大小不确切就无法计算其算术平均数。

与算术平均数紧密相关的另外一个概念称为平均值的标准误差(Standard Error of Mean,S.E.mean),它是描述样本平均值与总体平均值之间平均差异程度的统计量。

(二)中数

中数(Median)也叫中位数,是另外一种反映数据的中心位置的指标,将所有数据由小到大排列,位于中央的数据值就是中位数。这一数值上、下各有一半频数分布着。

将一组原始数据依大小顺序排列后,若总频数为奇数,就以位于中央的数据作为中位数;若总频数为偶数,则以最中间的两个数据的算术平均数作为中位数。如:

1、1、1、2、2、2、5、7、8、9、3、3、3、4、4、10

从小到大排列:

1、1、1、2、2、2、3、3、3、4、4、5、7、8、9、10

中间位置的数有两位,即第 8 和第 9 位,它们的数值都是 3,所以中数为 3。如果中数数值不同,则取平均值。

中位数虽然也具备良好的集中量应具备的条件,例如比较严格确定、简明易懂、计算简便、受抽样变动影响较小,但它不适合进行进一步的代数运算,只适用于以下几种情况:

(1)一组数据中有特大或特小两极端数值时。

(2)一组数据中有个别数据不确切时。

(3)资料属于等级性质时。

(三)众数

众数(Mode)是反映集中量的一种指标。对众数有理论众数和粗略众数两种定义方法,一般情况下我们采用粗略众数。理论众数指与频数分布曲线最高点相对应的横坐标上的数,粗略众数指一组数据中频数出现最多的数。如:

1、1、1、2、2、2、5、7、8、9、3、3、3、4、4、10

出现频率最高的数值是 1、2、3。众数简明易懂,但不具备良好的集中量的基本条件。主要在以下情况下使用:

(1)当需要快速而粗略地找出一组数据的代表值时。

(2)当需要利用算术平均数、中位数和众数三者关系来粗略判断频数分布的形态时。

(3)利用众数分析解释一组频数分布是否确实具有两个频数最多的集中点时。

数据间的差距小,均值就有较好的代表性;数据间的差距大,特别是有个别极端值的时候,中位数或众数有较好的代表性。算术平均数受极端数据影响很大,中数是反映变量集中趋势的合适指标,不受极端数据的影响。众数也不受极端数据影响,适用于任何量表的数据。众数的问题是可能出现多个众数。

(四)SPSS中实现过程

1.研究问题

求汽车发动机启动时间(秒)的算术平均数、中位数和众数,数据如图 3-1所示。

图3-1 汽车发动机启动时间(秒)

2.实现步骤

(1)单击“Analyze”菜单“Descriptive Statistics”项中的“Frequecies”命令,弹出“Frequencies”对话框,单击 按键使“发动机启动时间”变量添加到“Variable-(s)”框中。如图 3-2 所示。

图3-2 “Frequencies”对话框

(2)单击下方的“Statistics”按钮,弹出如图 3-3 所示的对话框。选择要统计的项目,在“ Central Tendency”框中选择“ Mean” “ Median” “ Mode”,选好后单击“Continue”按钮返回“Frequencies”对话框,单击“OK”按钮,SPSS即开始计算。

图3-3 “Frequencies:Statistics”对话框

(3)计算结果如图 3-4,汽车发动机启动时间的算术平均数为 15.50,中位数为 15.50,众数为 15。

图3-4 计算结果

二、离散趋势

离散趋势的测量值有多个,主要有三种:极差、方差和标准差。

(一)极差

极差(Range)又称全距,数据最大值减去最小值之差,它是数据离散或差异程度最简单的测量方法,计算公式为:

R = max( X i )-min( X i

其中, R 为全距, max ( X i )和min ( X i )分别表示数据 X i 中最大值和最小值。如:

1、1、1、2、2、2、5、7、8、9、3、3、3、4、4、10

极差为 10-1 = 9。显然,数据的分散程度越大,极差越大。极差的计算很简单,但易受极端值的影响,因为只利用了数据两端的信息。

(二)方差和标准差

方差(Variance)是所有变量值与平均数偏差平方的平均值。它表示一组数据分布的离散程度的平均值。标准差(Standard Deviation)是方差的平方根,它表示一组数据关于平均数的平均离散程度。方差和标准差越大,变量值之间的差异越大,离散程度越大。方差和标准差计算公式如下:

公式一是总体方差的计算公式, σ 2 表示总体方差, 表示总体均值,也可用 μ 表示。公式二是样本方差的计算公式, S 2 表示样本方差, 是样本均值, n 表示样本容量, n -1 称为自由度。公式三是公式二的平方根, S 是标准差。总体状况不可知时,需要用样本计算值估计总体参数。如果获得的数据是总体的,可以计算总体的方差和标准偏差,这时候不需要估计,就没有 n -1 之说,用样本的标准偏差估计整体的标准偏差,需要用到一个自由度的概念, 才有了这个 n -1。

方差和标准差的优点是:

(1)反应灵敏,随任何一个数据的变化而表示。

(2)一组数据的方差和标准差有确定的值。

(3)计算简单。

(4)适合代数计算,不仅求方差和标准差的过程中可以进行代数运算,而且可以将几个方差和标准差综合成一个总的方差和标准差。

(5)用样本数据推断总体差异量时,方差和标准差是最好的估计量。

(三)SPSS中实现过程

1.研究问题

求某品牌汽车发动机启动时间(秒)的极差、方差和标准差,数据同图 3-1所示。

2.实现步骤

(1)单击“Analyze”菜单“Descriptive Statistics”项中的“Frequecies”命令,弹出“Frequecies”对话框,单击 按键使“发动机启动时间”变量添加到“Variable-(s)”框中。同图 3-2 所示。

(2)单击下方的“Statistics”按钮,弹出如图 3-5 所示的对话框。选择要统计的项目,在“Central Tendency”框中选择“Mean” “Range” “ Std.deviation” “ Variance”四项统计量,选好后单击“Continue”按钮返回“ Frequencies”对话框,单击“OK”按钮,SPSS即开始计算。

图3-5 “Frequecies:Statistics”对话框

(3)计算的结果如图 3-6,该品牌汽车发动机启动时间算术平均数为 15.50,极差为 17,方差为 7.958,标准差为 2.821。

图3-6 计算结果 5Vrgv4rAfOuSwyr5azgqbYX4U+X4ct/4hsekFJAXmbC7QvVhe49uPWf7aU5E7DLY

点击中间区域
呼出菜单
上一章
目录
下一章
×