在日常教育教学中,通常需要对学生成绩进行统计分布,包括平均分、最高分、最低分及学生成绩是否满足正态分布等,这对分析教育教学效果具有指导意义。
本案例的数据文件为某高校一个班级的学生期末考试语文、数学和化学3门课程的成绩数据,如图3-1所示,现要求对这个班级的语文成绩进行分析。
图3-1 data3-01.sav中的数据
(1)打开数据文件data3-01.sav,执行菜单栏中的“分析”→“描述统计”→“频率”命令,弹出“频率”对话框。在左侧的变量列表中选中“语文”变量,单击
按钮,将其选入“变量”框,如图3-2所示。
(2)单击“统计”按钮,弹出图3-3所示的“频率:统计”对话框。在该对话框中进行统计量的选择。
本案例欲研究该班级语文成绩的平均成绩、中位数、众数、最高及最低成绩,以及语文成绩的标准差、方差等,故勾选“四分位数”“均值”“中位数”“众数”“标准差”“方差”“范围”“最小值”“最大值”“标准误差均值”“偏度”“峰度”复选框,单击“继续”按钮返回主对话框。
图3-2 “频率”对话框
图3-3 “频率:统计”对话框
(3)单击“图表”按钮,弹出图3-4所示的“频率:图表”对话框。欲研究语文成绩是否符合正态分布,故选中“直方图”单选按钮并勾选“在直方图中显示正态曲线”复选框,单击“继续”按钮返回主对话框。
(4)单击“格式”按钮,弹出图3-5所示的“频率:格式”对话框,选中“按值的升序排序”“比较变量”单选按钮,单击“继续”按钮返回主对话框。
(5)完成所有设置后,单击“确定”按钮执行命令,此时会弹出描述性统计表、频率分布表、直方图。
图3-4 “频率:图表”对话框
图3-5 “频率:格式”对话框
表3-1为描述性统计表,由表3-1可以看出有效样本为30个,没有缺失值。语文的平均成绩为75.23(分),中位数为74.50,标准差为11.258,最小值为53,最大值为97等。
表3-1 描述性统计
表3-2为频率分布表,可以看出学生语文成绩的频率分布,从左至右依次是频率、百分比、有效百分比和累计百分比。如语文成绩是72分的人数有2人,占比为6.7%。
表3-2 频率分布
图3-6为学生语文成绩的频率直方图,从图中可以看出学生的语文成绩基本服从正态分布,其中以70~75分的学生居多。
图3-6 语文成绩的频率直方图
(1)打开数据文件data3-01.sav,执行菜单栏中的“分析”→“描述统计”→“探索”命令,弹出“探索”对话框。
(2)在左侧的变量列表中选中“语文”变量,单击
按钮,将其选入“因变量列表”框,在“显示”栏中选中“两者”单选按钮,如图3-7所示。
(3)单击“统计”按钮,弹出图3-8所示的“探索:统计”对话框,勾选“描述”“M-估计量”“离群值”“百分位数”复选框,在“描述”复选框下的“均值的置信区间”输入框中保持系统默认的95。单击“继续”按钮返回主对话框。
图3-7 “探索”对话框
图3-8 “探索:统计”对话框
(4)单击“图”按钮,弹出图3-9所示的“探索:图”对话框,选中“因子级别并置”单选按钮,勾选“茎叶图”“直方图”“含检验的正态图”复选框。单击“继续”按钮返回主对话框。
(5)单击“选项”按钮,弹出图3-10所示的“探索:选项”对话框,选中“成列排除个案”单选按钮。单击“继续”按钮返回主对话框。
图3-9 “探索:图”对话框
图3-10 “探索:选项”对话框
(6)完成所有设置后,单击“确定”按钮执行命令,系统会弹出描述性统计、M估计量、正态性检验等表格。
从表3-3中可以看出共30个样本,没有缺失值。
表3-3 个案处理摘要
从表3-4中可以看出语文成绩的平均分为75.23,标准误差为2.055,中位数为74.50,标准差为11.258,最小值为53,最大值为97等。
表3-4 描述性统计
从表3-5中可以看出,M估计量中休伯M估计量、图基双权估计量、汉佩尔M估计量和安德鲁波估计量的区别就是使用的权重不同,发现语文成绩的4个M估计量离中位数和平均值均较近,说明数据中没有异常值。
表3-5 M估计量
百分位数就是将数值分成两部分,例如百分位数25代表的值表示有25%的值比该值小,有75%的值比该值大,从表3-6中可以得出本案例的百分位数。
表3-6 百分位数(P)
从表3-7中可以看出分组后语文成绩的5个极大值和5个极小值。
表3-7 极值
从表3-8中可以看出柯尔莫戈洛夫-斯米诺夫(Kolmogorov-Smirnov)方法和夏皮洛-威尔克(Shapiro-Wilk)方法检验的结果,显著性均大于0.05,说明语文成绩的分布符合正态分布。其中夏皮洛-威尔克方法只有在样本量小于50时比较精确。
表3-8 正态性检验
由图3-11可知,语文成绩呈正态分布。
图3-12是茎叶图,图中“频率”表示变量值的频次,“Stem”表示变量值的整数部分,“叶”表示变量值的小数部分。
图3-13中的两种正态图,一种是标准的正态概率分布图,另一种是离散的正态概率分布图。
标准的正态概率分布图使用变量的实测值作为横坐标,使用变量的期望值作为纵坐标,变量值为落点。图中的斜线表示正态分布的标准线,点表示变量值,变量值越接近于斜线,则变量值的分布越接近正态分布,本案例中语文成绩分布符合正态分布。
图3-11 语文成绩分布的直方图
图3-12 语文成绩的茎叶图
图3-13 语文成绩的正态图
图3-13 语文成绩的正态图(续)
离散的正态概率分布图使用变量的实测值作为横坐标,以实测值与期望值的差作为纵坐标,如果数据符合正态分布,则图中的点应该分布于图中标准线的附近。在本案例中语文成绩分布符合正态分布。
图3-14所示为箱图,箱子的上边线表示第75百分位数,下边线表示第25百分位数,中间的线表示中位数,箱子上下的两条细横线表示除离群值和极值外的最大值和最小值。离群值是指离箱子的上下边线的距离为箱子高度的1.5倍至3倍的变量值,一般用“Ο”或“☆”表示,从图3-14中可以看出语文成绩没有离群值和极值存在。
图3-14 箱图