购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.2 统计数据的整理

统计数据的整理是将收集到的各种原始数据条理化、系统化,使之符合统计分析与推断要求。统计数据整理的中心任务就是分组和编制频数分布表。

2.2.1 统计数据分组

统计数据分组 就是根据统计研究的需要,将统计数据按照一定的标志划分为若干组成部分的一种统计方法。统计数据分组是对统计总体进行的一种定性分组,是统计认识客观事物的手段。通过对社会经济所涉及的方面进行重点的分组,达到对其一般及特殊性的认识。

统计数据分组的标志可以是品质标志,也可以是数量标志。通过分组,可以划分现象的类型、说明现象的内部结构、揭示现象与现象之间的依存关系。在统计数据分组过程中,选择什么样的标志就会形成什么样的分组体系,且分组标志一经确定,就突出了总体在此标志下的性质差异,而掩盖了总体在其他标志下的差异。所以,根据统计研究的目的,在对研究对象进行分析的基础上,应抓住具有本质性的区别及反映现象内在联系的标志来作为分组的标志。

1.按品质标志分组

按品质标志分组 就是按事物的品质特征进行分组。由于品质数据是用文字来表现的,每种表现即为一种类别,因此对品质型数据主要是做分类整理。例如,按所有制性质划分,我国的经济类型可以分为国有经济、集体经济、私营经济、个体经济、联营经济、股份制经济、外商投资经济,以及港、澳、台投资经济8组。

按品质标志分组,分组界限明确后,分组方法比较简单。

2.按数量标志分组

按数量标志分组 就是按事物的数量特征进行分组。由于数值型数据表现为具体的数值,因此对数值型数据主要是按照数值进行分组。例如,对学生成绩的分组,可以分为60分以下、60~70分、70~80分、80~90分、90分以上5个组。按数量标志分组,在选择分组标志后,还要合理确定各组的界限。因此,与按品质标志分组相比,按数量标志分组较为复杂。

统计中按数量标志分组的方法有单项式分组和组距式分组两种形式。

1)单项式分组

单项式分组 就是把每一个变量值作为一组。这种分组方法通常只适合于离散变量且变量值较少的情况。采用的方法是,首先将原始数据资料按变量值大小进行升序排列;然后将相同的变量值分为一组;最后将数据资料分成若干组。例如,大学生按其曾经使用过的手机数分组,可以分为0个、1个、2个、3个及以上四个组。

例2.1 】 某车间50个工人看管机床台数资料如下:

试对数据进行分组。

解: 由于机器台数属于离散型变量,因此使用单项式分组方法。

首先将原始资料按变量值升序排列如下:

然后将相同变量值分为一组,最后将资料分成若干组。本例分组变量值为2、3、4、5、6五个。

2)组距式分组

组距式分组 就是将全部变量值依次划分为若干区间,并将这一区间的变量值作为一组。这种分组方法通常只适合于连续变量或虽为离散变量但变量值较多的情况。组距式分组的关键问题是分组数目的确定和组距的确定。

在组距式分组中,如果各组的组距相等则称为 等距分组 ;如果各组的组距不相等则称为 不等距分组 。例如,对学生成绩的分组可以分为0~20分、20~40分、40~60分、60~80分、80~100分5组,就是等距分组;而对人口年龄的分组可以分为0~6岁(婴幼儿组)、7~17岁(少年儿童组)、18~59岁(中青年组)、60岁及以上(老年组)4组,就是不等距分组。

一般来说,当变量值的变动比较均匀时,宜采用等距分组,便于进行对比分析;而当变量值的变动很不均匀,且变动幅度大时,则宜采用不等距分组。对于不等距分组的组数和组距的确定,必须结合现象的性质特点和统计研究的要求全面考虑。

下面重点介绍等距分组的基本步骤。

第一,数据排序。

将原始数据资料按变量值大小进行升序排列。

第二,分组数目的确定。

数据应分成多少组比较合适,通常与数据本身的特点和数据个数有关。由于分组的目的之一是观察数据分布的特征,因此组数的确定应以能够清楚地显示数据的分布特征和规律为原则。组数太少会使数据的分布过于集中,而组数太多又会使数据的分布过于分散,这样不便于观察数据分布的特征和规律。

具体做法是,首先根据数据个数,大体上确定所分组数。最好使每组所包含的数据个数,平均不少于4或5个。这里向大家介绍一种确定组数的经验公式,仅供大家参考。这一公式是美国学者斯特吉斯(H.A.Sturges)创用的,称为斯特吉斯经验公式,即

式中, k 为组数; N 为总体中的个体数,对结果四舍五入取整后为理论分组数目。根据这一公式,可以得出表2-5所示的组数参考标准。

表2-5 分组组数参考表

第三,组距的确定。

组距的大小与组数的多少是相互制约的,它们之间呈反比例关系。组距越大,则可分的组就越少;组距越小,则可分的组就越多。

组距可根据全部数据的最大值和最小值及组数来确定,即

组距=(最大值-最小值)÷组数

第四,组限的确定。

组限即为每个组的两个端点数值,分别为上限和下限。上限是各组的最大变量值,下限是各组的最小变量值。组限的选择应做到第一组的下限应略低于最小变量值,最后一组的上限应高于最大变量值。

对于离散变量和连续变量,组限的划分是不同的。对于离散型变量,由于其只能取整数,相邻组的上、下限可以不重叠。例如,某研究小组按人数分组可以分为4~6人、7~8人、9~10人等组。对于连续变量,相邻两组的组限应重叠,即上一组的上限同时也是下一组的下限,用“上限不在内”原则解决不重问题,即当相邻两组的上、下限重叠时,恰好等于某一组上限的变量值不算在本组内,而计算在下一组内。例如,男人的身高可以分为140~160cm、160~180cm、180~200cm、200~220cm等组,且均为“左闭右开”区间。

当变量值变动范围较大时,为避免组数过多,可以采用开口组。开口组是指最小组为“……以下”,最大组为“……以上”。

各组的组距也是一个组的上限与下限之差。

第五,组中值的确定。

数据分组后,经常用组中值来反映组距分组中各组数据的一般水平。组中值是上、下限之间的中点数值,其计算公式为

组中值=(上限+下限)÷2

实际工作中,对于开口组的组中值,一般是用相邻组的组距作为开口组的组距,因此,其组中值的计算公式近似为

组中值=下限+邻组组距/2(缺上限)或组中值=上限-邻组组距/2(缺下限)

用组中值来代表各组数据的一般水平,有一个假设条件,即各组数据在本组内呈均匀分布。

例2.2 】 某学校50位教师某月的工资(单位:元)资料如下:

2200,2100,4640,4580,3500,4080,2980,4000,3560,2850

3320,2470,3000,2540,3040,3680,4500,3210,3400,3320

4200,3780,3980,3800,4800,3210,2590,4400,3700,2740

3840,3400,4100,3350,4780,2600,4320,3130,4300,3890

3390,3300,3500,3280,4120,2340,3900,4450,2790,3280

试对数据进行分组。

:由于工资属于连续型变量,因此采用组距式分组方法。

(1)将原始资料按升序进行排列结果为

2100,2200,2340,2470,2540,2590,2600,2740,2790,2850

2980,3000,3040,3130,3210,3210,3280,3280,3300,3320

3320,3350,3390,3400,3400,3500,3500,3560,3680,3700

3780,3800,3840,3890,3900,3980,4000,4080,4100,4120

4200,4300,4320,4400,4450,4500,4580,4640,4780,4800

(2)计算极差 R

R =最大值-最小值=4800-2100=2700

(3)确定组数和组距。由斯特吉斯经验公式

组数 k =1+3.322lg N =1+3.322lg50≈1+3.322×1.699≈6.644≈7;

组距 d = R / k =2700/7≈385.7。

因此,取整数组距 d =400,并进行等距分组。

(4)确定组限。

取第一组下限为2050,则该组上限=下限+组距=2050+400=2450,由此得到7个组的上、下限如下:

2050~2450、2450~2850、2850~3250、3250~3650、3650~4050、4050~4450、450~4850。

(5)计算组中值。根据公式:

组中值=(上限+下限)÷2

可计算出7个组的组中值依次为2250、2650、3050、3450、3850、4250、4650。

阅读专栏2-3

统 计 分 组

为了从数量方面深入地研究总体的特征,揭示统计总体中的矛盾,需要进行统计分组。

统计分组是根据研究的目的,按照一定的标志,将统计总体区分为若干个组成部分的一种统计方法。这些若干部分中的每一个部分就称为一个“分组”。例如,研究某一地区人口状况时,可按年龄这一标志将人口区分为不同年龄组。从这个例子可以看出,各组之间的年龄别是不同的,而每个组中人口所表现的年龄特征是相同的。正是因为这个特点,统计分组的根本任务就是区分事物之间存在的质的差异。通过分组,可以把总体中各个不同性质的单位区分开,使性质相同的单位归在一个组内。这样才能从数量方面剖析事物,揭示事物内部的联系,深入地研究总体的特征,认识事物的本质及规律性。

统计分组是基本统计方法之一,统计工作从始至终都离不开统计分组的应用,在统计调查方案中必须对统计分组做出具体规定,才能搜集到能够满足分组需要的资料。统计资料的整理的任务是使零散资料系统化,但怎样使资料系统化,本着什么去归类,这就取决于统计分组。因此,在取得完整、正确的统计资料前提下,统计分组的优劣是决定整个统计研究成败的关键,它直接关系到统计分析的质量。

目前,统计工作中常用的分组如按生产资料所有制性质分组、按国民经济行业分组、按单位隶属关系分组、按地区分组、按三次产业划分、企业按大中小型划分、按职业分类等,其中重要的分组都有全国统一的分类标准。

资料来源:天津统计信息网http://www.stats-tj.gov.cn.

2.2.2 频数分布

在统计分组的基础上,将总体中所有的个体按某一标志进行归类排序,称为 频数分布 次数分布 。频数分布是统计整理的一种重要形式,通过对零乱、分散的原始数据资料进行有次序的整理,形成一系列反映总体各组之间个体分布状况的数列。

1.频数与频数分布表

频数 (Frequency)是指分布在各组内的数据个数,也称为 次数 。各组频数与全部频数之和的比值称为 频率或百分比 (Percentage),各组的频率大于0,各组频率的总和等于1。把各组及其相应的频数全部列出,并用表格的形式表现出来就是 频数分布表

由于统计分组是按照统计标志进行的,因此,频数分布相应的也有品质频数分布和变量频数分布两种。

1)品质频数分布

品质频数分布 是指按照品质标志进行的分组所编制的频数分布。例如,某单位职工按受教育程度分组统计,可以得到表2-6所示的频数分布。

表2-6 职工受教育程度的频数分布表

又如,某单位职工按职工性别分组统计,可以得到表2-7所示的频数分布表。

表2-7 职工性别的频数分布表

表2-6和表2-7所示的分组统计频数分布,都属于按照品质标志进行的分组所编制的频数分布。

2)变量频数分布

变量频数分布 是指按照数量标志进行的分组所编制的频数分布。变量频数分布可以分为单项式频数分布和组距式频数分布。

(1)单项式频数分布。 单项式频数分布 是指每一组只有一个值进行分组形成的频数分布。分组后统计出每组变量出现的次数,即频数,并计算各个变量值出现次数占总次数的比例,即频率。最后,按变量值的大小顺序列出单项式变量数列,并形成频数分布表。例如,某单位职工按家庭人口分组统计,可以得到如表2-8所示的频数分布。

表2-8 职工家庭人口的频数分布表

(2)组距式频数分布。 组距式频数分布 是指按组距式分组形成的频数分布。分组后仍然要统计出每组变量出现的次数,即频数,并计算各个变量值出现次数占总次数的比例,即频率。最后,按各组组限的大小顺序列出组距式变量数列,并形成频数分布表。例如,某单位按某种产品的销售量分组统计,可以得到如表2-9所示的频数分布。

表2-9 某种产品的销售量的频数分布表

表2-9所示的频数分布就是组距式频数分布。

2.累计频数和累计频率

在数据整理中,我们除了上面的频数和频率的统计之外,有时还关心各有序类别或组在某一个变量值以上或以下的频数或频率。例如,在统计学生成绩时,我们除了统计学生在各个分数段的人数和百分比之外,还经常关心学生在某一分数以上或以下的人数。例如,及格(60分以上)的人数有多少?及格的人数占总人数的比例有多大?不及格(60分以下)的人数有多少?不及格的人数占总人数的比例有多大?这些统计内容就是有关的累计频数和累计频率统计。因此,我们有必要对频数分布表的内容加以扩展。

(1)累计频数(Cumulative Frequencies)。 累计频数 就是将各有序类别或组的频数逐级累加起来。其方法分为向上累计和向下累积两种, 向上累计 是从变量值小的一方向变量值大的一方累加频数; 向下累计 是从变量值大的一方向变量值小的一方累加频数。通过累计频数,我们可以很容易看出某一类别(或数值)以下或以上的频数之和。

(2)累计频率或百分比(Cumulative Percentages)。 累计频率 就是将各有序类别或组的频率逐级累加起来。其方法也分为为向上累计和向下累计两种。例如,某单位按某种产品的销售量分组统计,可以得到如表2-10所示的频数分布。

表2-10 某种产品的销售量的频数分布表

在表2-10中,由向上累计可以看出,某种产品有93天销售量在200台以下,占所统计天数(120天)的77.50%;由向下累计积可以看出,某种产品有27天销售量在200台以上,占所统计天数(120天)的22.50%。

2.2.3 统计表与统计图

统计表和统计图是数据资料整理的两种重要显示工具。运用统计表可把杂乱的数据有条理地组织在一张简明的表格内,即便于计算比较,又易于发现错误和遗漏。运用统计图可把数据形象、直观地显示出来,使人们在短时间内获得明晰的印象。正确地编制和使用统计图表是做好统计分析的最基本技能。

1.统计表

统计表 就是将统计调查所搜集到的数据资料经过汇总整理后,按一定顺序填在以纵横交叉的线条所绘制的表格内。

1)统计表的结构

统计表的形式多种多样,根据使用者的要求和统计数据本身的特点,我们可以绘制形式多样的统计表。

统计表的结构一般由表头、行标题、列标题和数字资料4部分组成。其中,表头应放在表的最上方,它说明的是统计表的主要内容;行标题和列标题通常安排在统计表的第一列和第一行,它所表示的是所研究问题的类别名称和变量名称;数字资料列在行标题与各列标题的交叉处。此外,必要时还可以在统计表的下方加上表外附加,主要包括资料来源、指标的注释和必要的说明等内容。

从统计表的内容上看,统计表包括主词和宾词两个部分。主词就是统计表要说明的总体及其各组成部分,宾词是用来说明总体的各种统计指标。统计表的构成如表2-11所示。

表2-11 2008年北京奥运奖牌榜(前十名)→表头

资料来源:北京奥运官方网站http://www.beijing2008.cn/. →附加

2)统计表的设计

在编制统计表时应遵循以下几点原则:

(1)合理安排统计表的结构。例如,行标题、列标题、数字资料的位置应安排合理。

(2)表头一般应包括表号、总标题和表中数据的单位等内容。

总标题应简明确切地概括出统计表的内容,一般需要表明统计数据的时间、地点及何种数据,即标题内容应满足3W(统计数据的时间、地点、何种数据的简称)要求。

(3)如果表中的全部数据都是同一计量单位,可放在表的右上角标明,若各指标的计量单位不同,则应放在每个指标后或单列出一列标明。

(4)表中的上、下两条线一般用粗线,中间的其他线要用细线,这样使人看起来清楚、醒目。

(5)在使用统计表时,必要时可在表的下方加上注释,特别要注明资料来源,以表示对他人劳动成果的尊重,方便读者查阅使用。

3)统计表的分类

(1)简单分组下的统计表。 简单分组 就是对被研究现象只按一个标志进行的分组。例如,大学生按其年龄、性别、所学专业等标志进行分组。简单分组只能说明被研究现象某一方面的差别情况。例如,表2-12是按一个品质标志(职位)进行分组的简单统计表,也是横截面数据统计表。

表2-12 2009年某公司中层干部的实际收入(单位:万元)

表2-13是按一个品质指标(时间)进行分组的简单统计表,也是时间序列数据统计表。

表2-13 2010—2014年北京市城镇人口数统计表(单位:万人)

资料来源:中华人民共和国国家统计局http://www.stats.gov.cn/.

(2)复合分组下的统计表。 复合分组 就是采用两个或两个以上的标志结合起来进行分组。例如,大学生可先按性别进行分组,在此基础上,再按所学专业进行分组。采用复合分组可以对被研究的现象做更深入的分析,但也不宜采用过多的标志进行复合分组,以免组数过多,反而难以显示出事物的本质特征。例如,表2-14是一个先按地区,再按年份进行分组的复合统计表。

表2-14 东北三省2011—2014年GDP对比表(单位:亿元)

资料来源:中华人民共和国国家统计局http://www.stats.gov.cn/.

表2-15是先按县名,再分别按家庭户、平均每户住房间数和人均住房建筑面积进行分组的复合统计表。

表2-15 2000年天津市辖县家庭户住房状况

资料来源:《2000人口普查分县资料》。

表2-16是一个重叠排列表,即先按县名,再分别按平均受教育年限、15岁及以上文盲人口和文盲率,最后按性别进行分组的复合统计表。

表2-16 2000年天津市辖县受教育程度统计表

资料来源:《2000年人口普查分县资料》。

2.统计图

统计图就是利用各种几何图形表现统计资料的形式。通过频数分布表,可以初步看出数据分布的一些特征和规律,但如果用图形来表示频数分布的结果,会更加形象和直观。在计算机运用日益普及的今天,统计图的制作可以借助于计算机来完成。常用的显示频数分布特征的图形有条形图、饼图、直方图和线形图等。

【拓展案例】

1)条形图

条形图(Bar Chart)是用宽度相同的条形的高度或长短来表示数据频数分布变化的图形,主要用于比较同类统计指标数值,分析同类指标在不同时间或地区的发展差异,一般适用于顺序和分类变量的分析。条形图的纵坐标可以是频数,也可以是频率(百分比)。例如,在表2-6中,职工受教育程度的频数分布表可以直观地用条形图来显示。图2.1是以频数(Frequency)为纵坐标的条形图。

图2.1 职工受教育程度条形图

2)直方图

直方图(Histograms Chart)是用矩形的面积来表示频数分布变化的图形。绘制直方图时,横轴表示各组组限,纵轴表示频数或频率,然后按分布在各组的频数及频率确定各组在纵轴上的坐标,并依据各组组距的宽度与频数的高度绘成直方图。直方图适用于定距形变量的分析。此外,我们还可以在直方图上附加正态分布曲线,以便于正态分布比较。例如,在表2-6中,职工受教育程度的频数分布表可以直观地用直方图来显示。图2.2是以受教育程度为横坐标、以频数(Frequency)为纵坐标的直方图,其中横坐标中的1代表小学,2代表初中,3代表高中,4代表大学,5代表研究生,并附加了正态分布曲线。

图2.2 职工受教育程度直方图

知识要点提醒

直方图与条形图的异同

(1)都是用来反映数据的分布状况,适用于不同类型的数据。

(2)条形图是用条形的高度表示各类别频数的多少,其宽度(表示类别)则是固定的。

(3)直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义。

(4)直方图的各矩形通常是连续排列的,条形图则是分开排列的。

3)饼图

饼图(Pie Chart)是用圆形及圆内扇形的面积来表示频数分布变化的图形,利于研究事物内在结构组成等问题。饼形图中圆内的扇形面积可以表示频数,也可以表示频率(百分比)。但是,用饼图表示总体中各部分所占比例就比条形图要好一些。例如,在表2-6中,职工受教育程度的频数分布表可以直观地用饼图来显示。图2.3是职工受教育程度的饼图。

图2.3 职工受教育程度饼图

4)线形图

线形图(Line Chart)是用线条的上下波动来反映数据变换的一种统计图形,主要适用于描述现象在时间上的变化趋势、现象的分配情况和现象间的依存关系。图2.4是2008年南方区域及五省(区)全社会用电量走势。

图2.4 2008年南方区域及五省(区)全社会用电量走势

阅读案例2-4

统计整理为经营者提供帮助

企业正处在信息化时代,它们之间的竞争越来越取决于信息的竞争。企业统计信息工作是对企业实行科学管理、监督整个企业活动的重要手段,是企业制订政策和计划的主要依据。统计信息参与企业决策势在必行。

一手机专营店的经营者为完善店内的销售工作而组织了一项统计调查,力求从调查中找到有用的信息,以便制订更好的销售策略来满足顾客的需求。

该手机专营店为了解人们在购买手机时关注的因素,随机调查了100名前来光顾本店的顾客,当问及“您在选购手机时最关注的问题是什么”时,给出的备选答案是:

A.价格B.品牌C.售后服务D.功能E.外观

得到回答的原始数据记录如表2-17所示。

表2-17100名回答的该问题的原始数据资料

根据以上原始数据,你能概括说出顾客对于手机的反映吗?

为了观察分析人们购买手机时最看重的情况,必须对资料的数据进行分类整理。经整理得到的频数分布表如表2-18所示。

表2-18 顾客购买手机关注情况频数分布表

由此可见,经过整理后,调查得到的数据被大大简化了,关注功能和品牌的消费者最多,占到调查总数的73%。同时,通过统计图(图2.5和图2.6),我们也可以得出相同的结论,即现在人们购买手机时普遍关注的是功能与品牌。

资料来源:曾艳英.应用统计基础 [M].北京:机械工业出版社,2010.

图2.5 购买手机关注因素饼图

图2.6 购买手机关注因素柱形图

实例分析

在校大学生旅游情况调查

随着中国经济的高速发展,人民生活水平不断提高,越来越多的人出外旅游,而国家也制定了多个假期,以满足需要。旅游已逐渐成为人们娱乐生活中不可缺少的一部分。人们除了能享受到旅游过程中的惬意与放松,其实更多的是对生活的体味。对于大学生来说,除了国家法定节假日外,还有寒暑假,比较起来有更多的出游时间,而且当代大学生的求知欲非常强,消费水平也在不断提高。因此,越来越多的大学生喜欢出外旅游。

那么,大学生的旅游现状究竟如何?他们又有哪些需求?2016年初,某高校学生在老师的指导下组成调研小组,对该校本科生的旅游状况进行了统计调查。通过对他们旅游的目的、方式、花费、地点等方面的调查,客观、真实地了解本科生旅游的实际情况,并且利用调查的数据进一步分析和探讨了大学生出游的观念和需求,为旅游机构进一步开发旅游市场提供可参考的依据。本次调查需要研究的问题是:

(1)指出本次调查的目的。

(2)确定使用的调查方法。

(3)设计出一份调查问卷。

(4)收集调查数据,并进行整理,写出调查分析报告。

一、学习目标

通过本案例的学习,要求学生掌握统计调查的基本流程和方法,能够对调查结果进行有效的分析。

二、案例分析

(1) 调查目的 :了解当今大学生旅游的现状和需求,为大学生的旅游市场开发提供可行的建议。

(2) 调查方法 :本案例的抽样调查的总体是某校本科毕业生。采用的抽样方法是两阶段抽样:第一阶段为分层抽样,以宿舍为抽样单位,按专业和性别分层;第二阶段为随机抽样,在第一阶段抽到的宿舍内随机抽取学生作为调查对象。该项调查共完成有效问卷103份,调查对象为大学一年级至大学四年级之间的已有过旅游经历的学生。

(3) 调查问卷

关于大学生旅游情况的调查问卷

您好!我们是某大学学生,现在我们需要对旅游情况进行一项调查,非常期望您能够抽出几分钟宝贵的时间参与我们的调查,请您认真回答下列问题,问题没有正确与错误之分,关键是能真实表达您的看法,非常感谢您的合作!

请填写您的基本信息:

姓名________ 性别________ 专业________ 年级________

以下各题请您在您要选择的选项“□”上划“√”。

1.在大学期间您是否出外旅游过:□是 □否

2.最喜欢德旅游目的地:□自然景点 □人文景点 □休闲度假村

3.您一年出游几次:□1~2次 □3~5次 □5次以上

4.您旅游的主要目的(多选):

□欣赏自然风景 □购物 □寻求刺激 □增长见识 □探险 □摆脱束缚□摆脱学习压力 □结识新朋友 □其他

5.影响您旅游地点选择的主要因素(多选):

□时间(休假时间的长短、季节)□旅游费用 □时间 □目的地资源吸引力□交通便捷程度 □其他

6.您旅游一般所需费用:□少于200 □201~500 □501~800 □801~1000□多于1000

7.您最喜欢的旅游方式(多选):□自助旅行 □随团旅游 □骑自行车旅游□徒步背包旅游 □野营 □探险旅行 □其他

8.您的旅游信息主要来源于(多选):

□直接获取(从旅行社)□报纸杂志 □电视广播 □朋友介绍 □网上浏览□其他

9.您是否愿意从旅行社获得相关咨询: □是 □否

10.您旅行中主要选用的住宿方式:□住在亲戚/朋友家 □宾馆 □中小型旅馆□野外露营

11.您是否考虑随旅行社出游: □是 □否

12.您旅行中主要选用的交通工具(多选):□飞机 □轮船 □火车 □巴士□自驾车 □脚踏车 □徒步 □其他

13.您旅游途中您最关心的事情(多选):

□住宿 □导游 □饮食 □交通 □天气 □卫生 □安全 □其他

14.对于您在历次旅游过程中,最不满意的是:

□旅行社导游未尽职责 □旅行社降低等级标准 □旅行社擅自变更行程安排□旅行社配套设施不完善 □其他

15.您认为在景区内的餐厅就餐(多选):

□不方便 □价格偏高 □卫生条件差 □服务差

16.您旅游最喜欢去的地方是________________

理由:________________

17.您旅游去过的地方最不喜欢的是:________________

理由:________________

调查员________

审核员________

调查时间________

(4) 调查分析报告

① 关于旅游目的、次数和信息来源的选择。

从这次的调研数据来看,对于旅游的目的大学生们的选择各有不同,但从分析中可看出,出于摆脱学习压力、欣赏自然风光和增长见识的大学生占多数,如图2.7所示。此外,大学生一年出去旅游的次数在1~2次的占85%,3~5次的占13%,而5次以上的仅占2%。

图2.7 大学生旅游目的频率分布图

至于旅游信息的来源,主要还是以朋友之间的互相介绍为主,原因是一般朋友介绍的,总会认为是可以值得相信的旅游好地点。另外,大学生之间的互动性和相仿性也是很高的。也有一些大学生愿意从旅行社获得相关信息,因为毕竟是专业机构,信息的参考性较强。

② 关于旅游地点、方式和费用的选择。

调查资料显示,68%的人表示喜欢休闲度假村和自然景点,由于大学生就业、学习压力大,去一些自然中的景点是大部分人的首选地,那种超越自然的感觉,可以使他们暂时缓解学习压力,精神得到放松舒缓。影响大学生旅游地点的主要因素是时间和费用,因此,本市及周边地区则是学生们的首选。此外,调查结果也表明,大部分大学生比较钟情于欧洲。因为那里的历史文化、建筑风格和神秘气息深深地吸引了他们。

毋庸置疑,大学生目前的旅游方式还是以自助旅游为主,占到66%(图2.8),一般都是约三五个好友一起出游。

图2.8 大学生旅游方式频率分布图

大学生的旅游费用为500元以下的占了大部分(图2.9)。由于绝大多数的大学生还没有收入,生活费主要来源于父母,因此大多数人的消费观念还是比较理性的。

③ 关于旅游交通工具、住宿和就餐的选择。

至于旅游交通工具,选择乘坐火车和汽车的学生占了82%,只有2%的学生选择了飞机。关于住宿的问题,80%的人选择中小型旅馆,只有3%左右的人选择宾馆。从这次的分析数据来看,学生们普遍反映景区内就餐价格高;此外,有些景点的卫生条件和服务质量较差也是大学生比较关心的话题(图2.10)。因此,如果一个旅游景点想要吸引游客,除了价格因素外,还需要在服务水平等各方面下功夫。

图2.9 大学生旅游费用频率分布图

④ 关于旅游影响因素的选择。

在众多影响大学生旅游的因素中,住宿、交通、天气、卫生、安全这5个方面被大学生认为对外出旅游是比较重要的。在本次调查中,大学生最为关注的就是天气因素,占了本次统计调查的33.3%。学生们大都喜欢在春、秋两季天气凉爽的时候出去旅游,因为碰上高温或阴雨天,影响旅游的好心情。另外,交通问题占了本次统计调查的34.7%。去旅游,学生们都希望不要在车上或任何其他交通工具上耽搁太久时间,因为旅游时间原本就很紧凑,这样浪费时间会让他们觉得玩得不尽兴。至于住宿、安全、卫生三者占了本次统计调查的23%,学生们认为只有住得安心、吃得放心、安全有保障,旅游起来才会开心。

图2.10 大学生对景区内就餐质量的评价分布图

综上所述,随着人民的生活水平不断提高,旅游消费变得越来越热,出外旅游已成为人们生活中必不可少的部分。在旅游群体当中,大学生是整个旅游市场的一个重要而又独立的组成部分。大学生作为社会的一个特殊群体,具有一定的经济独立能力和自我生活能力,有相对宽松的时间,具有更多的冒险精神和追梦遐想,这些促成了大学生旅游热。因此,大学生作为一支旅游生力军的地位确实不容忽视。当今全国高校数量已达2000多所,在校生人数超过2000万人,可见中国的大学生旅游是一个巨大的市场,值得旅游机构关注。

本章小结

统计主要研究现实生活中的数据,它通过收集、整理、描述和分析数据来帮助人们对事物的发展做出合理的判断,能够利用数据信息和对数据进行处理已成为信息时代每一位公民必备的素质。通过对本章的学习,要求学生能够灵活运用各种数据收集方法收集数据,掌握统计分组的方法和技巧,理解组距数列中有关概念,掌握频数分布表的编制方法。

关键术语

frequency频数

cumulative frequencies累计频数

bar chart条形图

pie chart饼形图

percentage频率

cumulative percentage累计频率

histograms chart直方图

line chart线形图

知识链接

[1]曾艳英.应用统计基础 [M].北京:机械工业出版社,2010.

[2]贾俊平,何晓群,金勇进.统计学 [M].6版.北京:中国人民大学出版社,2015.

习题 2

一、选择题

1.对家用电器的平均寿命进行调查,应该采用()。

A.普查

B.重点调查

C.典型调查

D.抽样调查

2.2009年6月新浪网进行的一项网络调查中,把调查问卷刊登在网站上,然后由感兴趣的网民自行填写。在回答问题的人员中有47.5%的人认为高考会改变个人一生的命运。对于此项调查,有媒体得出结论认为“全国居民中有47.5%的人认为高考会改变个人一生的命运”。这一结论()。

A.完全正确

B.不准确,因为没有给出置信区间

C.不准确,因为样本缺乏对目标总体的代表性

D.不能确定

3.在抽样调查中以下会造成非抽样误差的是()。

A.数据录入错误

B.被调查者拒答

C.调查员编造数据

D.以上都对

4.在问卷设计中,以下问题设计的最为合理的是()。

A.国家认为H1N1病毒是可防可治的,你认为呢?

B.你喜欢足球和篮球运动吗?

C.你经常上网吗?

D.你上个月的总支出是多少?

5.某组向上累计频数表示()。

A.大于该组上限的频数有多少

B.大于该组下限的频数有多少

C.小于该组上限的频数有多少

D.小于该组下限的频数有多少

6.某连续式组距分组数列,其末组为开口组,下限为500,又知其相邻组的组中值为480,则末组的组中值为()。

A.520

B.510

C.500

D.490

7.统计分组时,若某标志值刚好等于相邻两组上、下限数值时()。

A.将此数值归入上限所在组

B.将此数值归入下限所在组

C.归入这两组中任意一组均可

D.另立一组

8.人口普查是()。

A.专门调查

B.非全面调查

C.经常性调查

D.一次性调查

E.全面调查

9.非全面调查方式包括()。

A.普查

B.抽样调查

C.全面统计报表

D.重点调查

E.典型调查

10.统计表从内容上看,由()构成。

A.总标题

B.主词

C.横行标题

D.纵栏标题

E.宾词

二、简答题

1.区别下列概念。

(1)普查与统计报表。

(2)重点调查与典型调查。

(3)登记性误差与代表性误差。

(4)品质标志与数量标志。

(5)单项式分组与组距式分组。

(6)频数与频率。

(7)向上累计与向下累计。

2.统计调查有哪几种主要组织形式?请分别比较它们的特点、作用和适用场合。

3.重点调查中的重点单位和典型调查中的典型单位是怎样选取的?举例说明。

4.问卷的基本结构是怎样的?

5.怎样确定等距分组中的组距、组数和各组上下限?

6.统计表从结构上看,一般要由几个部分组成?

7.条形图、饼图、直方图和线形图各在什么情况下使用?

三、判断下列问卷中设置的问题是否存在不足之处

1.您和您家里人对现有住房条件是否满意?

2.绝大多数人对食堂的服务都很满意,您认为是这样吗?

3.您对本餐厅是否满意?

4.您是否有过婚前性行为?

5.您最近看过电影吗?

四、计算题

1.为了解4种品牌的罐装啤酒的市场占有率,在某超市随机记录了50名顾客购买啤酒的品牌,记录的原始数据如下:

A B C C D B A D E C

C B A D D B A A C B

C C C A B A D A A C

D C D A A A C B A C

A C B D D A A C B C

试根据上面的资料编制频数和频率分布表。

2.某班40名学生统计学考试成绩分别如下:

66 89 88 84 86 87 75 73 72 68

75 82 97 58 81 54 79 76 95 76

71 60 90 65 76 72 76 85 89 92

64 57 83 81 78 77 72 61 70 81

学校规定:60分以下为不及格,60~70分为及格,70~80分为中,80~90分为良,90~100分为优。

(1)将该班学生分为不及格、及格、中、良、优5组,编制一张分数分配表。

(2)指出分组标志及类型、分组方法的类型,分析本班学生的考试情况。

3.某单位40名职工的月工资(元)情况如下:

2200,3110,2930,2890,2500,2300,2710,2450,2450,2450

2700,3200,3100,2390,2380,2470,3800,2740,3590,2410

2100,1130,1940,2510,2800,2200,2550,2570,2240,2540

2490,2600,2310,1890,2370,2610,2830,1620,2430,2430

假定组数为6,组距为500,试运用数值型数据整理的方法,采用重合组限设置进行等距分组,并计算频数分布、编制统计表和统计图。

4.某企业生产某种零件需经6道工序,为提高质量,检查第三季度全部废品产生的原因。结果如表2-19所示。

表2-19 某企业第三季度全部废品产生的原因

试绘制累计频数分布表,并进行分析。

5.根据表2-20中数据之间的关系填空,并绘制直方图。

表2-20 变量值、频数、频率及累计频率的关系

6.填写表2-21中的空格,并绘制频数分布条形图。

表2-21

实际操作训练

1.实训项目:学生饮食消费习惯的统计调查与分析

实训目的:掌握统计数据收集、整理和显示的方法,理解并会正确使用。

实训内容:学校后勤集团饮食服务中心想通过调查了解以下问题:

(1)学生的饮食偏好。

(2)学生对餐饮消费习惯。

(3)学生对学校餐厅的评价及满意程度。

假设你是饮食服务中心的负责人,根据以上情况,请你:

(1)设计出一份调查方案。

(2)确定使用的调查方法。

(3)设计出一份调查问卷。

(4)收集调查数据,并进行整理,写出调查分析报告。

2.实训项目:学生月消费支出情况调查

实训目的:掌握统计数据收集、整理和显示的方式,理解并会正确使用。

实训内容:随意抽取某专业两个班的学生,对连续2个月的月生活费支出情况进行调查,以此反映当代大学生的消费热点,研究学生学习生活需求。要求:

(1)设计一个完整的调查方案

提示:调查项目应包括被调查学生的月生活费支出、生存所需的基本月生活费、学习费(学费、学习用具费、资料费等)、课外培训费、零食消费、娱乐消费(上网、看电影、郊游等)、其他消费。

(2)设计出调查问卷。

(3)利用课余时间实施调查。

(4)搜集并整理原始数据资料,编制统计表,绘制合适的统计图。

(5)将调查资料整理装订好,留待以后整理分析时使用。

案例思考与讨论

2008北京奥运会奖牌数的分布及构成分析

2008年8月8日至2008年8月24日在北京举办的第29届奥运会取得了巨大成功。国际奥委会主席罗格的评价是“一届真正的无与伦比的奥运会”。在本届奥运会上,中国体育代表团取得的金牌第一、奖牌总数100枚的历史最好成绩。在本届奥运会上,共设有奖牌958枚,其中金牌302枚,银牌303枚,铜牌353枚。表2-22是取得金牌总数前三名的国家所获得的奖牌分布情况。

表2-22 取得金牌总数前三名的国家所获得的奖牌分布情况

需要分析的问题:

(1)要描述中国男、女代表队获得的奖牌数分布,你认为应该使用哪种图形?请画出这一图形。

(2)要描述中国体育代表团的奖牌总数的构成,你认为应该使用哪种图形?请画出这一图形。

(3)要比较中国、美国和俄罗斯3个国家的奖牌构成,你认为应该使用哪种图形?请画出这一图形。

【参考答案】 HvEIWuxCtAt5xlofl6rubLsnASv4TGnizoim1DzqhTtmPVpnLJXn+hJmB+VIbpuN

点击中间区域
呼出菜单
上一章
目录
下一章
×