我们在对数据进行分析前,要对数据进行描述统计分析,通过对数据的描述统计分析能够了解数据的整体情况。描述统计分析的常用指标主要有平均数、中位数、众数、标准差、方差等,这些指标能够提供分析对象数据的集中程度和离散程度等信息。
根据岗位实训内容,我们可提炼出典型实训活动,具体如下:
(1)将“用户明细.txt”文件转化为“用户.xlsx”文件;
(2)使用Excel打开“用户.xlsx”文件;
(3)检查数据的变量名、变量属性是否正确;
(4)进行“描述统计”分析;
(5)导出分析结果。
知识目标:
(1)掌握描述统计分析的常用指标;
(2)熟悉变量的属性。
技能目标:能够独立使用Excel对数据进行“描述统计”分析。
思政目标:
(1)树立严谨、细致的实训态度;
(2)培养克服困难解决问题的能力;
(3)追求职业高度。
任务名称:_______________
任务功能:_______________
典型实训任务:_______________
注意事项:
1.请严格按照实训任务内容要求实践,不得随意更改实训流程。
2.完成实训内容后,请进行清单检查,完成请打钩。
学生签名:
在对数据进行分析前,首先要对数据进行表述统计分析,通过对数据的描述统计分析能够了解数据的整体情况。描述统计分析的常用指标主要有平均数、中位数、众数、标准差、方差等,这些指标能够提供分析对象数据的集中程度和离散程度等信息。
对“用户.xslx”进行描述统计分析,使用Excel分析数据,生成并导出分析结果。
实训流程图如图 2.11 所示。
(备注:实训流程图上方为该环节所需知识点,下方为项目实践活动。)
图2.11 实训流程图
实训要点 1:正确打开数据
实训要点 2:检查数据的变量名是否正确
实训任务:检查所有变量名是否正确。
实训要点 1:打开“描述统计对话框”
实训要点 2:对数据进行“总量统计”“平均数置信度”“第 5 大值”以及“第 5 小值”设置
实训任务:完成“描述统计”参数设置。
实训要点 1:输出“描述统计”分析的结果
实训要点 2:导出结果
实训任务:导出分析结果。
本实训的学习目标如表 2.4 所示。
表2.4 学习目标
数据分析一般分为五个步骤:第一步,数据收集,包括一手数据和二手数据的收集;第二步,数据处理,即从大量的、杂乱无章的数据中抽取并推导出对解决问题有价值、有意义的数据;第三步,数据分析,包括分类、聚类、关联、预测数据;第四步,数据展现,用饼图、柱形图、条形图、折线图、散点图、雷达图、金字塔图、矩阵图等常用图表可视化展现数据;第五步,报告撰写,图文并茂、层次清晰地向读者阐明结论,提出建议或解决方案。当我们面对规模越来越庞大的数据,已不能依靠计算器进行分析时,我们必须依靠强大的数据分析工具。数据分析工具能帮助我们熟悉数据分析方法理论,完成数据分析实训。
我们在对数据进行分析前,要对数据进行描述性分析,描述性分析是数据分析的第一个步骤,即对调查所得的大量数据资料进行初步的整理和归纳,以找出这些资料的内在规律——集中趋势和分散趋势。其主要针对各种数据所表示的统计量,如均数、百分比等,进行单因素分析。
事实证明,仅靠百分比或平均差是不能完全反映客观事物的本质的,仅仅对一个样本进行分析也是不够的。这个样本是否能够反映其总体的特征,还需要进行推断性分析,本节主要基于对比分析法、预警分析法、二八法则分析法以及高级分析法介绍数据分析的思路和方法。
描述性统计是指运用制表和分类、图形以及计算概括性数据特征的各项活动。描述性分析要对相关数据进行统计性描述,主要包括数据的频数分析、集中趋势分析、离散程度分析、分布以及一些基本的统计图形 。
(1)数据的频数分析:在数据的预处理部分,我们利用频数分析和交叉频数分析可以检验异常值。
(2)数据的集中趋势分析:用来反映数据的一般水平,常用的指标有平均值、中位数和众数等。
(3)数据的离散程度分析:主要用来反映数据之间的差异程度,常用的指标有方差和标准差。
(4)数据的分布:在统计分析中,通常要假设样本所属总体的分布属于正态分布,因此需要用偏度和峰度两个指标来检查样本数据是否符合正态分布。
(5)绘制统计图:用图形的形式来表达数据,比用文字表达更清晰、更简明。
描述统计分为集中趋势分析、离中趋势分析和相关分析三大部分。
(一)集中趋势分析
集中趋势分析主要靠平均数、中数、众数等统计指标来表示数据的集中趋势。例如,被试的平均成绩是多少?是正偏分布还是负偏分布?
(二)离中趋势分析
研究离中趋势分析主要靠全距、四分差、平均差、方差、标准差等统计指标。例如,我们想知道两个教学班中,哪个班级的语文成绩分布更分散,就可以用两个班级的四分差或百分点来比较。
(三)相关分析
相关分析探讨数据之间是否具有统计学上的关联性。这种关系既包括两个数据之间的单一相关关系——如年龄与个人领域空间之间的关系,也包括多个数据之间的多重相关关系——如年龄、抑郁症发生率、个人领域空间之间的关系;既包括 A 大 B 就大(小), A 小 B 就小(大)的直线相关关系,也包括复杂相关关系( A = Y - B · X );既可以是 A 、 B 变量同时增大这种正相关关系,也可以是 A 变量增大时 B 变量减小这种负相关;还包括两个变量共同变化的紧密程度——相关系数。实际上,相关关系唯一不研究的数据关系,就是数据协同变化的内在根据——因果关系。获得相关系数有什么用呢?简而言之,有了相关系数,就可以根据回归方程,进行 A 变量到 B 变量的估算,这就是所谓的回归分析。因此,相关分析是一种完整的统计研究方法,它贯穿于提出假设、数据研究、数据分析的始终。
例如,我们想知道,对监狱进行哪些改造可以降低囚徒的暴力倾向。我们可以将不同的囚舍颜色基调、囚舍绿化程度、囚室人口密度、放风时间、探视时间进行排列组合,然后以每个囚室为单位进行一种实验处理,再用因素分析法找出与囚徒暴力倾向相关系数最高的因素。假定这一因素为囚室人口密度,我们又要将被试随机分入不同人口密度的十几个囚室中生活,继而得到人口密度和暴力倾向两组变量(我们讨论过的 A 、 B 两列变量)。然后,我们将人口密度排入 X 轴,将暴力倾向排入 Y 轴,获得了一个很有价值的图表。当某典狱长想知道,某囚舍扩建到 N 人/间囚室,暴力倾向能降低多少时,我们可以将当前人口密度和改建后人口密度带入相应的回归方程,算出扩建前的预期暴力倾向和扩建后的预期暴力倾向,两数据之差即典狱长想知道的结果。
对比分析方法是将两个或两个以上的数据进行对比,分析差异进而揭示这些数据所代表的规律。对比分析法包括横向比较及纵向比较。横向比较即在同一时间下对不同总体指标进行对比,如今日头条同领域作者文章阅读量对比、粉丝数对比等。纵向比较即在不同时间条件下对同一总体指标进行对比,如将本月文章阅读量与上月阅读量进行对比、将本月粉丝增长数与上月增长数进行对比等,如图 2.12 所示。通过对比分析,经营者可以直接观察到目前的运营水平,既可以找到当前已经处于优秀水平的方面,后续予以保持,又可以及时发现当前的薄弱环节,重点突破 。
图2.12 对比分析举例
对比分析是为一个孤立的指标找到一个参照系,否则一个孤立的指标其实没有任何实际意义。常见对比分析方法有如下三个。
(一)同比分析
同比分析一般情况下是将今年第N月与上年第N月对比。同比发展速度消除了季节变动的影响,用以说明本期发展水平与上年同期发展水平相对比而达到的相对发展速度,见图 2.13。
(二)环比分析
环比分析是将报告期水平与前一时期水平做对比,表明现象逐期的发展速度。如计算一年内各月与前一个月的对比 ,见图 2.13。
图2.13 同比分析与环比分析
(三)定比分析
定比数据是指具有顺序、距离和比例属性的数据,是由定比尺度计量形成的,表现为数值,可以进行加、减、乘、除运算,没有负数。例如,有三个等级甲、乙和丙,小明说甲和乙之间的距离是相同的,小王说乙的大小与甲和丙成比例,它有暗含顺序,因此,列在第一位的对象比列在第二位的对象大或小,以此类推。
定比数据广泛应用于统计中,例如:产量、产值、固定资产投资额、居民货币收入和支出、银行存款余额等。定比数据在算术运算和线性变换中也有广泛的运用。
公式如下:
同比=本期数据÷上年同期数据
定比=本期数据÷本年度的第一期数据
环比=本期数据/上期数据
同比增长率=(本期数据-上年同期数据)÷上年同期数据×100%
定比增长率=(本期数据-本年度的第一期数据)÷本年度第一期数据×100%
环比增长率=(本期数据-上期数据)÷上期数据×100%
式中,上期可以指上年、上季或上月。
预警分析法是一种能预测可能影响到企业竞争地位和财务状况的潜在因素,界定出一系列财务指标及相关因素的目标值、正常值和警戒值,将其与竞争对手指标进行比较,从而帮助管理者能在不利情况来临之前就采取防御措施,找到解决问题的方法。预警分析法可以使企业未雨绸缪、明察秋毫,把握企业内外动向,及时采取应对措施,保持企业长期发展能力 。
预警分析法分为外部预警分析法和内部预警分析法。外部预警分析法主要分析市场状况、市场占有率、竞争对手情况等;内部预警分析法主要分析劳动生产率、机制运转率、队伍稳定性等。
预警分析法有定量预警分析法和定性预警分析法两种,在实践中这两种方法应结合使用。定量预警分析法可以将实际值与目标值进行对比,根据其差距发出不同程度的预警信息,或通过运用相应的数据图表分析来判断一些定量指标的变动趋势。定量预警分析法所得结论比较精确,但可能不完整。定性预警分析法则通过实践调查来获取相关评价性指标,或者根据风险因素出现的概率来发出警报,在一定程度上弥补了定量预警分析法的不足。
“二八定律”又名帕累托定律,也叫巴莱多定律、80/20 定律、最省力法则、不平衡原则等,是 19 世纪末 20 世纪初意大利经济学家帕累托发现的。他认为:在任何一组东西中,最重要的只占其中一小部分,约 20%,其余的 80%尽管是多数,却是次要的,因此又称“二八法则”。
生活中普遍存在“二八法则”。商家 80%的销售额来自 20%的商品,80%的业务收入是由 20%的客户创造的;在销售公司里,20%的推销员带回 80%的新生意,等等。“二八法则”告诉我们,通常用 80%的精力只会取得 20%的成效。
(一)时间序列分析
时间序列分析(time series analysis)是一种动态数据处理的统计方法。该方法基于随机过程理论和数理统计学方法,研究随机数据序列所遵从的统计规律,以解决实际问题。时间序列构成要素是:现象所属的时间、反应现象发展水平的指标数值。
时间序列就是按照时间顺序排列的一组数据。时间序列分析就是发现这组数据的变动规律并将其用于预测的统计技术 。该技术由以下三个基本特点:假设事物发展趋势会延伸到未来;预测所依据的数据具有不规则性;不考虑发展的实务之间的因果关系。
对时间序列进行分析的最终目的,是要通过分析序列进行合理预测,做到提前掌握其未来发展趋势,以此为业务决策提供依据。在实际进行时间序列预测时,遇到的数据会比较复杂,所以需要用到更专业的预测方法来对数据进行合理预测。
(二)波士顿矩阵分析
波士顿矩阵(BCG Matrix)又称市场增长率—相对市场份额矩阵、四象限分析法、产品系列结构管理法等,是一种规划企业产品组合的方法。企业经常遇到的问题是如何使企业的产品品种及其结构适合市场需求的变化,只有解决了这个问题,企业的生产才有意义。波士顿矩阵是由全球性管理咨询公司BCG提出的,这个模型主要用来协助企业进行业务组合或投资组合。在矩阵坐标轴中的两个变量分别是业务单元所在市场的增长率和所占据的市场份额。每个象限中的企业处于不同的现金流位置,并且应用不同的方式加以管理,这样就引申出公司如何寻求其总体业务组合 。
本节对常用数据分析方法进行讲解,通过图表或数学方法,对数据资料进行整理、分析,对数据的分布状态、数字特征和随机变量之间的关系采用描述性分析方法,对两个或两个以上的数据采用对比分析法,并预测可能存在的影响因素的预警分析法、二八法则分析法、时间序列分析和波士顿矩阵分析。
有一家销售女装的店铺通过节日活动积累了一定访问数据后,需要统计流量的均值、区间、众数、方差、标准差等统计数据,并给出该专题访问量差异的量化标准,以此作为分析每天访问量的价值的依据。
在进行数据分析的时候,我们首先要对数据进行描述统计分析(descriptive analysis),以发现其内在的规律,再选择进一步分析的方法。描述统计分析要对调查总体所有变量的相关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布以及一些基本的统计图形,常用的指标有均值、中位数、众数、方差、标准差等。
描述统计分析步骤如下。
(1)打开数据表格,由于本案例对数据无特殊要求,因此只需选择所需的数据列的值,如图 2.14 所示。
图2.14 数据选取
(2)选择“工具”—“数据分析”—“描述统计”后,出现属性设置框,如图 2.15 所示。
图2.15 使用Excel的数据分析
注意:数据分析功能需要使用Excel扩展功能,如果当前使用的Excel尚未安装数据分析插件,则需要进行数据分析功能的添加操作。具体步骤如下:点击“文件”菜单,选择“选项”,打开“Excel选项”对话框,选择“加载项”,选择“分析工具库”,选择“加载项”,按下“确定”按钮后,在“数据菜单”的“分析”项就能看到“数据分析”功能。
(3)描述统计。我们首先要进行描述统计参数设置,如图 2.16 所示。
图2.16 描述统计参数设置
对数据进行描述统计分析后即可得到数据的平均值、中位数等数据信息。
注意:“描述统计”对话框中有两部分内容,分别为输入和输出选项。
输入区域:原始数据区域,选中多个行或列,选择相应的分组方式——逐行/逐列。
如果数据有标志,勾选“标志位于第一行”;如果输入区域没有标志项,该复选框将被清除, Excel将在输出表中生成适宜的数据标志。
输出区域可以选择本表、新工作表或是新工作簿。
汇总统计:包括平均值、标准误差(相对于平均值)、中值、众数、标准偏差、方差、峰值、偏斜度、极差、最小值、最大值、总和、总个数和置信度等相关项目。
第 K 大(小)值:输出表的某一行中包含每个数据区域中的第 K 个最大(小)值。
平均置信度:置信度也称为可靠度,或者置信水平、置信系数,是指总体参数值落在样本统计值一区内的概率,常用的置信度为 95%或 90%。
把本节课的知识梳理汇总成流程图,如图 2.17 所示。
图2.17 本节知识流程图
整理本节课所学知识点,补充下方思维导图(如图 2.18 所示),管理你的知识。
图2.18 本节知识思维导图
通过此活动的实践,学生应当能够:
●判断数据的变量名、变量属性是否正确;
●对数据进行描述统计分析。
实训实施流程 (如图 2.19 所示)
图2.19 实训实施流程
1.根据实践要求完成任务。
2.在实训实施过程中,学生可自由查阅资料或向老师求助。
3.在规定时间内完成任务,超时则视为未完成任务,不予评分。
请先下载“参考资料”,根据实训步骤演示,在“答题卡”中完成任务。
请根据活动步骤流程,完成字段的计算,并将计算结果填入下面方框中。
检查清单 (见表 2.5)
表2.5 检查清单
任务评价 (见表 2.6)
表2.6 任务评价表
表2.6(续)
1.在Excel中,一个实训簿就是一个Excel文件,其扩展名为()。
A.xlsx
B.dbfx
C.exex
D.lblx
2.在Excel中,一个实训簿可以包含()实训表。
A.1 个
B.255 个
C.多个
D.3 个
3.Excel电子表格A1 到C5 为对角构成的区域,其表示方法是()。
A.A1: C5
B.A1, C5
C.C5; A1
D.A1+C5
4.以下单元格引用中,哪一项属于混合引用()。
A.E3
B.$C$18
C.$D$13
D.B$20
5.在Excel中,下面关于单元格的叙述正确的是()。
A.在编辑的过程中,单元格地址在不同的环境中会有所变化
B.实训表中单元格是用单元格地址来表示的
C.为了区分不同实训表中相同地址的单元格地址,我们可以在单元格前加上实训表的名称,中间用“#”间隔
D.A4 表示第 4 列第 1 行的单元格
E.从亚马逊运营角度来看,美国银行账户和中国香港银行账户功能更为丰富
6.某校九年级数学模拟测试中,六名学生的数学成绩如下表所示,下列关于这组数据描述正确的是()。
A.众数是 110
B.方差是 16
C.平均数是 109.5
D.中位数是 109
7.多多班长统计去年 1—8 月“书香校园”活动中全班同学的课外阅读数量(单位:本),绘制了如下折线统计图,下列说法正确的是()。
A.极差是 47
B.众数是 42
C.中位数是 58
D.每月阅读数量超过 40 的有 4 个月
8.某鞋店一天卖出运动鞋 12 双,其中各种尺码的鞋的销售量如下表,则这 12 双鞋的尺码组成的一组数据中,众数和中位数分别是()。
A.25,25
B.24.5,25
C.25,24.5
D.24.5,24.5
1.简述数据分析的步骤。
2.简述Power BI并说明其优点。
学习本章数据分析工具后,同学们对常见的数据分析工具有了一定的认识,请结合本章所学知识论述Power Query的使用场景。