信息化时代统计思维的应用离不开统计分析软件。正是统计分析软件的普及,促使统计思维广泛地出现在各类科研活动中。当前,Excel因使用方法简单成为应用范围最广泛的数据处理软件,它在数据预处理和简单统计描述、简单统计推断等领域均有不错的表现。SPSS则是应用最广泛的专业化数据统计分析软件。
在科研活动中,人们经常借助Excel完成数据采集和简单的数据预处理,然后借助SPSS完成专业化的统计分析业务。当然,也有一些初学者直接使用Excel完成自数据采集到专业化统计分析的全部工作。但是,对于各类科技论文,大多数学者更认可基于SPSS的统计分析结果。
大数据时代的统计分析技术可分为两种不同的类型,一种是针对某一时间点的静态数据的数据分析技术,另一种是面向动态变化数据的实时数据挖掘技术。
尽管专业的统计分析工具很多,但在科学研究领域,人们使用较多的统计分析工具仍然是SPSS和Excel。在基于社会调查和评价分析等研究中,人们常常以更为普及的Excel完成数据采集、预处理和简单的统计分析任务,而以专业化的SPSS完成比较复杂的统计分析工作。
(1)SPSS
SPSS是IBM公司推出的一系列用于统计分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称,被广泛地应用于教育、心理、经济、生物、地理、医学等学科领域,是世界上著名的统计分析软件之一。
SPSS软件的全称最初为“Statistical Package for Social Science”,即“社会科学统计软件包”,但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS已于2000年正式将英文全称更改为“Statistical Product and Service Solutions”,即统计产品与服务解决方案,标志着SPSS的战略方向正在做出重大调整。
SPSS for Windows是一个组合式软件包,它集数据录入、整理、分析功能于一身。用户可以根据实际需要和计算机的功能选择模块。SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等。SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类。SPSS也有专门的绘图系统,可以根据数据绘制各种图形。
(2)SAS
SAS是一款广泛地应用于化学、生物、心理、农医等领域的统计分析软件。SAS的全称为“Statistics Analysis System”,即“统计分析系统”,它最早是由北卡罗来纳州立大学的两位生物统计学研究生编制并研发的,并于1976年正式推出。该系统早期仅提供统计分析功能,目前已发展成为能用于决策支持的大型集成信息系统,当然,统计分析功能至今仍是它的重要组成部分和核心功能。
SAS是由大型机系统发展而来的,其核心操作方式是程序驱动,经过多年的发展,现在已经成为商业分析软件与服务领域的领跑者。
(3)Systat
Systat的全名是“System Statistical”(即“统计系统”),这是一款强大的统计分析软件,它能够为用户提供从基础的描述性统计到基于高端算法的高级统计方法等多种高效功能。
与SPSS等软件相似,它提供了回归分析、变异数分析、表格分析、多变量分析、可靠度分析、时间序列分析、仿真与分配等功能,而且还提供了功能强大的宏语言,以便用户便捷地控制统计过程,开展统计流程代码设计。
除了专业化的统计分析软件外,随着大数据时代的来临,一些办公软件内部也集成了数据分析模块,以供普通用户在自己的工作中完成一些简单的统计分析任务。
在Excel 2010及以后的版本均内置了数据的统计与分析功能,使统计分析成为Excel的基本功能。用Excel实施统计分析的方法有两种:其一是普通的统计分析函数,其二是比较专业的“分析工具库”。
(1)普通的统计分析函数
Excel提供了一组专业的统计函数,帮助人们进行统计分析。常见的函数有:①普通统计函数,如SUM、COUNT、AVERAGE、MAX、MIN等;②条件统计函数,如SUMIF、COUNTIF、AVERAGEIF等;③转码函数,如IF、TEXT、VALUE等;④数据分析函数,如VAR、STDEV、TTEST、FTEST、CORREL等。
(2)Excel的分析工具库
“分析工具库”是Excel的重要组件,它提供了T检验、方差分析、Z检验、F检验等常用的统计分析功能,而且能够提供远比统计函数详细的统计分析结果,有利于用户进行比较专业的统计分析任务。
分析工具库已经成为微软Office系统的默认安装组件。但是,在用户启动Excel时,不会默认加载分析工具库,需要用户在需要使用分析工具库时人工加载。具体加载方法请参阅1.5.2节。
常用的结构方程建模软件包括Mplus、Lisrel、AMOS、EQS、R语言等。其中前面4个是专门的结构方程建模软件,R语言是一种多元化的开源的统计软件,里面有做结构方程的包,但它并不是专门做结构方程的软件。从功能上讲,R的功能最丰富,但其操作难度也最大。
在Mplus、Lisrel、AMOS和EQS等专门做结构方程模型的软件中,Mplus功能最多,操作也比较便捷,并且更新周期短,是当前较为流行也较有潜力的结构方程建模软件。AMOS则具有操作简便、易学,与SPSS配合较好等特色,深受广大初学者的喜爱。
相比较而言,虽然AMOS的功能比其他软件少一些,但其实现结构方程模型的功能仍是比较完整的,而且能够与SPSS无缝连接。因此,笔者推荐大家在学习SPSS的过程中顺便学习一下AMOS的使用。
Excel是数据处理领域中应用最广泛的电子表格软件。随着Excel的普及与发展,Excel不仅被广泛应用于数据计算、变形、检索、简单统计等数据处理领域,它还专门研发了分析工具库等模块,也能胜任统计推断等专业化的统计分析业务。Excel的主工作界面如图1-1所示。
(1)Excel工作表的结构
Excel 2010及其以后的版本采用了“选项卡-功能区”管理模式,其主窗口的顶部是Excel的选项卡和功能区,中部区域则显示了当前工作表Sheet1的内容。
由图1-1可知,中部区域是一个划分了行与列的大型二维表格,顶部的一行用于标记各列的编号,编号以字母表示;最左侧的一列用于标记各行的编号,以数字标记。这个大型的二维表格被称为Excel的工作表,其中包括很多个能够存储信息的单元格,这些单元格用其所在的列号和行号来表示。在Excel 2016中,每张工作表可以包含16 384列,1 048 576行,即共有16 384×1 048 576个单元格。
图1-1 Excel主工作界面
Excel文档被称为工作簿,Excel中的每个工作簿都是一个独立文档,其扩展名为xlsx。每个工作簿都可由多张工作表组成,例如Sheet1、Sheet2、Sheet3等。这一思路与生活中人们所用的记事簿相似,每个记事簿都包含多页纸张,每页纸上都被画上了若干竖线和横线,从而形成了很多行和列。
(2)Excel的单元格及其表示
电子表格中的单元格按照一定的行和列,排列形成一张二维表格,而若干张二维表格叠放在一起,就形成了一个三维结构。
在Excel中,使用字母作为列号,列号依次为A、B、C……Z、AA、AB、AC……AZ、BA、BB、BC……BZ、CA……。行号则使用数字。因此要表示当前工作表中的某个单元格,一定是以字母开头、以数字结尾,例如:AB18表示第AB列第18行的单元格。
如果要表示其他工作表中的单元格,则需要使用三维结构,即在单元格的“列行”标志前加上工作表的名称,而且二者之间以“!”分隔开。例如:Sheet4! AB18表示引用工作表Sheet4中第AB列第18行的单元格。
Excel提供了2种统计分析技术:其一是基于统计分析函数做简单的统计分析;其二是利用其内置的分析工具库开展专业化的统计分析。
(1)以Excel内置的统计分函数做统计分析
Excel中内置了一组函数,用于对数据实施各类分析。常见的统计分析函数如表1-1所示。
表1-1 Excel中常见的统计分析函数
Excel的内置函数很多,表1-1仅仅列出了比较常用的一些函数。对于各个统计分析函数的使用,将在后续章节中逐步讲授。
直接在Excel的空白单元格中输入带有统计分析函数的公式,就能立即在此单元格中计算出统计分析结果。
利用统计分析函数可以完成简单的统计分析,但由于其输出结果通常为单一的数值(例如,FTEST和TTEST都仅输出其检验概率值,即原假设成立的概率值,并不会同时输出相关统计量的效应值等信息,导致研究者获得的信息比较单薄。),因此,这种分析模式仅适用于非专业化的研究领域。
(2)利用Excel的内置分析工具库做统计分析
① Excel分析工具库的作用和功能
在Excel 2010及以后的版本中,都内置了分析工具库,用于进行比较专业的统计分析。由于基于分析工具库的统计分析不再仅仅输出单一的结果值,还可以输出相关数据列的T值、均值、方差及相关系数等信息,因此,利用分析工具库能够得到更加专业的分析结果。
② 检查分析工具库是否已经启用
尽管Excel内置了分析工具库,但其并不默认处在启用状态。因此,如果想用分析工具库开展统计分析,需要先检查其是否已经启用了。
[1]在Excel菜单栏中单击【数据】选项卡,检查其中是否存在【数据分析】按钮。
[2]若【数据】选项卡中没有【数据分析】按钮,则表示分析工具库尚未被启动;若是存在【数据分析】按钮,则表示分析工具库已被启动,如图1-2所示。
图1-2 【数据分析】按钮
③ 启用分析工具库的方法
[1]选择【文件】→【选项】命令,打开【Excel选项】对话框。
[2]在【Excel选项】对话框的左栏中选择【加载项】命令,在右栏的【加载项】窗口的底部,单击“管理”右侧的下拉按钮,选择【Excel加载项】,并单击【转到】按钮,如图1-3所示。
图1-3 【Excel选项】对话框
[3]在打开的【加载宏】对话框中勾选【分析工具库】复选框,单击【确定】按钮,启用分析工具库,如图1-4所示。
图1-4 启用分析工具库
在分析工具库被启用之后,就能利用【数据】选项卡中的【数据分析】按钮启动Excel的专业化统计分析操作了。
SPSS是专业化的统计分析软件,它与Excel、各类数据库软件均有较好的兼容性,是许多学科科研人员认可的优秀统计分析工具。SPSS提供了数据处理工作界面、基于系统菜单的统计分析、基于语句代码的统计分析3种服务模式。
(1)SPSS的“数据视图”
在启动SPSS并打开数据文件stuInfo.sav(学生信息表)后,会进入如图1-5所示的“数据视图”。
从SPSS的数据视图可知,SPSS的数据集是一个二维表结构。其中,每一行描述一个学生的信息,被称为一条记录,或一个个案;每一列被称为一个数据项,也叫一个字段或者一个变量。
每个个案则表示特定研究对象在各个属性上的取值,比如“张一8”行,就全面描述了学生“张一8”在各个方面的情况。每个变量用于描述全体研究对象在某个属性上的取值,例如性别变量、语文变量等。
图1-5 SPSS的数据视图
在SPSS数据集中,每列的标题(即变量名)独立设置,放置于数据表的顶部,与下方的个案明显不同。这一点与Excel数据表不一样,以这种方式管理数据表,显得更加专业。
(2)SPSS的“变量视图”
单击图1-5左下角的【变量视图】选项卡,则会进入“变量视图”。在SPSS的变量视图中,系统会以列表方式显示出当前数据集内各个变量的类型、宽度等属性,如图1-6所示。
图1-6 SPSS的变量视图
利用变量视图,可以重新定义当前数据集内各个变量的属性,例如重新设置变量名称、数据类型、数据宽度、小数位数及度量类型等属性。
如果数据集已经准备好,初学者可以依据研究问题的要求,借助SPSS的系统菜单【分析】之下的相应子菜单项,直接启动统计分析过程。下面我们来看一个案例。
(1)案例要求
基于数据文件stuInfo.sav中的内容,分析男女生的语文成绩是否存在显著性差异。
(2)案例分析
若想分析男女生的语文成绩是否存在显著性差异,可采用差异显著性检验中的T检验。T检验是检验两组样本差异显著性的检验方法。本例检验男生语文成绩与女生语文成绩的差异性水平,为面向独立样本的差异显著性检验。
(3)基于系统菜单进行数据分析的关键步骤
[1]打开已经准备好的数据集,使之处于“数据视图”状态。
[2]思考研究问题的统计分析要求,即针对两组独立样本的T检验。
[3]选择菜单命令【分析】→【比较均值】→【独立样本T检验】,如图1-7所示。
图1-7 独立样本T检验
[4]弹出“独立样本T检验”对话框,如图1-8所示。此时,需在此对话框中,依据研究目标和数据集的内容,正确选择参与T检验的变量,适当地进行参数配置。
图1-8 “独立样本T检验”对话框
[5]从左侧的变量列表中选中“语文”变量,单击中部的【 】按钮,把“语文”变量移动到右侧的“检验变量”列表里,表示“语文”是本案例的检验变量。
[6]从左侧的变量列表中选中“性别”变量,单击中下部的【 】按钮,把“性别”变量移动到右侧的“分组变量”列表中,并利用其下的【定义组】功能,设置“性别”的分组为“(‘男’‘女’)”,配置结果如图1-9所示。
图1-9 完成“独立样本T检验”的配置
[7]单击【确定】按钮,启动T检验过程,系统将弹出一个“输出”窗口,如图1-10所示。在这个输出窗口中显示出了T检验的分析计算结果。
图1-10 独立样本T检验的“输出”窗口
(4)解读分析结果
在图1-10所示的“输出”窗口中,首先显示了实现这个T检验的SPSS命令行,然后显示了“组统计”表格,最后显示了“独立样本检验”表格,呈现检验结果。
“独立样本检验”表格中包含方差齐性检验的检验概率值(p = 0.195)、T检验的T值(T = -1.426)和T检验的检验概率值(p = 0.156)。综合这些结果数据,可以得出结论:由于T检验的检验概率值0.156>0.05,我们可以认为“原假设是成立的”,即“男生和女生的语文成绩不存在显著性差异”。
在通过菜单命令启动统计分析功能后,系统会在“输出”窗口中输出与此分析功能相对应的SPSS命令行。有志于成为SPSS高级用户的读者,可以有意识地研读这些命令行,从而掌握这些SPSS命令。
过去,SPSS要求用户必须以语句代码形式描述自己的统计分析要求。现在,SPSS用户依然可以借助SPSS命令行(语句代码)实现统计分析过程。
[1]打开已经准备好的数据集,使之处于“数据视图”状态。
[2]单击【文件】—【新建】—【语法】命令,可以打开如图1-11所示的“语法”窗口。
图1-11 SPSS的“语法”窗口
[3]在“语法”窗口的右侧主工作区中,直接键入一个SPSS命令语句,例如键入如图1-12所示的语句,表示要根据当前数据集中的数据,做“男女生在语文成绩上是否存在显著性差异的T检验,检验的置信区间为95%”。
[4]输入完语句,单击工具栏中的运行按钮(即【 】按钮),启动统计分析过程,如图1-12所示。
图1-12 启动统计分析过程
SPSS提供了两种统计分析方法,它们各有特色,适用于不同的用户。
① 基于系统菜单的统计分析方法:通过菜单启动统计分析过程,以对话框提供人机交互界面,允许用户借助对话框设置详细的配置参数,能够准确、有效、便捷地完成统计分析任务。它适合SPSS的初学者或者对SPSS命令行不熟悉的用户。其唯一缺点是,在需要重复性地处理大量相似的分析任务时,用户需要机械地重复调用系统菜单并配置参数,导致其运行效率不高。
② 基于语句代码的统计分析方法:通过“语法”窗口实现,允许用户直接在其中撰写SPSS命令行实施数据分析操作。运行在“语法”窗口中的命令语句可以被复制,也可以作为语法文件(*.SPS)被保存起来,以供下次使用,因此它具有执行效率高、便于批量处理等优点。但是,这种方法需要用户精准地掌握SPSS的每一个命令行,并能准确地使用SPSS命令语句的参数配置,对用户有很高的要求。
③ 在学习计算机技术时,很多学习者都是先学习界面操作,然后逐步过渡到用计算机语言编程。同样,在SPSS的学习过程中,初学者可以先借助“基于系统菜单的统计分析”完成初步的统计分析任务。如果大家对SPSS命令行操作有兴趣,则可在基于菜单项的操作过程中,通过“输出”窗口逐步熟悉SPSS命令行,了解各种分析工具及其配置参数所对应的SPSS语句。通过一段时间的积累,掌握了一定数量的SPSS语句后,在SPSS的“语法”窗口以编程的方式开展统计分析就不再是难事。