频数分析主要是对数据按照四分位数、百分位数、均值、中位数、标准差、方差、峰度、偏度等统计量进行整理,通过频数分布表和频数分布图来描述多种类型变量的统计和图形显示,对变量的分布有一个初步的认识,是查看数据理想的开始位置。
(1)打开数据文件,选择“分析”→“描述统计”→“频率”,弹出“频率”对话框,如图4-1所示,各项含义如下。
● 变量:从左侧的变量列表中选择一个或多个变量进入其中。
● 显示频率表格:勾选此项,要求输出频率分布表。
图4-1 “频率”对话框
(2)单击 按钮,弹出“频率:统计”对话框,如图4-2所示,该对话框用来选择统计分析量,各项含义如下。
● 百分位值。
➢ 四分位数:即第25、50、75百分位数,将观察值分为四个大小相等的组。
➢ 分割点:如果您希望相等组的数目不等于4,可以选择此项,即输出等分点的百分位数。在参数框中可输入2-100间的整数。例如,输入10,即输出第10、20、30、40、50、60、70、80、90百分位数。
➢ 百分位数:直接指定输出的百分位数,在参数框中可输入0~100间的数值,单击“添加”按钮即可,可多次重复操作,指定输出多个百分位数,如指定输出5%、15%、75%的变量值。
● 集中趋势选项栏。
➢ 平均值:算术平均,总和除以个案个数。
➢ 中位数:其实就是第50个百分位,大于该值和小于该值的个案数各占一半。如果个案个数为偶数,那么中位数是个案在以升序或降序排列的情况下最中间的两个个案的平均。中位数是集中趋势的测量,但对于远离中心的值不敏感,与平均值不同,平均值容易受到少数多个非常大或非常小的值的影响。
➢ 众数:最常出现的值。如果出现频率最高的值不止一个,那么每一个都是一个众数。如果出现这种情况,频数分析过程仅输出多个众数中最小的那个。
➢ 合计:所有带有非缺失值的个案的值的合计。
● 离散趋势:该栏的6个复选框如下。
➢ 标准差:对围绕平均值的离差的测量。在正态分布中,要求68%的个案在平均值的一倍标准差范围内,95%的个案在平均值的两倍标准差范围内。
➢ 方差:对围绕平均值的离差的测量,值等于与平均值的差的平方和除以个案数减一。
➢ 范围:数值变量最大值和最小值之间的差。
➢ 最小值:数值变量的最小值。
➢ 最大值:数值变量的最大值。
➢ 平均值的标准误差:取自同一分布的样本与样本之间的平均值之差的测量,可以用来粗略比较观察平均值与假设值,如果差与标准误差的比值小于-2或大于+2,那么可以初步判断两个值不同。
● 分布选项栏。
偏度值和峰度值。偏度和峰度是描述分布形状和对称性的统计。
➢ 偏度:分布的不对称性测量。正态分布是对称的,偏度值为0。偏度值大于0表示正偏态,具有显著的正偏度的分布有很长的右尾。偏度值小于0表示负偏态,具有显著的负偏度的分布有很长的左尾。作为一个指导,当偏度值超过标准误差的两倍时,那么认为不具有对称性。
➢ 峰度:观察值聚集在中点周围的程度的测量。对于正态分布,峰度统计的值为0。正峰度值表示相对于正态分布,观察值在分布中心的聚集更多,同时尾部更薄,直到分布极值。负峰度值表示相对于正态分布,观察值聚集得少并且尾部较厚,直到分布极值。
● 值为是组的中点。
如果数据中的值是组中点,例如,所有年龄在30多岁的人都被编码为35,那么选择此选项以估计原始未分组的数据的中位数和百分位数。
图4-2 “频率:统计”对话框
(3)单击 按钮,弹出“频率:图表”对话框,如图4-3所示,该对话框是用来设置统计图的输出,各项含义如下。
● 图表类型。
➢ 无:即不输出统计图,系统默认。
➢ 条形图:将不同值或不同类别的计数作为单独的条显示,可以直观地比较各个类别。
➢ 饼图:每个分区对应于由单个分组变量定义的组,直观的显示各部分对整体的贡献。
➢ 直方图:直方图是根据相等的区间刻度进行绘制,高度是定量变量在该区间内的值的计数。在直方图中可以看出分布的形状、中心和分布。直方图上的正态曲线有助于判断数据是否符合正态分布。
● 图表值:对于条形图,可以按频率或百分比标记刻度轴。
(4)单击 按钮,弹出“频率:格式”对话框,如图4-4所示,该对话框是用来设置频数输出格式,各项含义如下。
● 排序方式:根据数据中的实际值或根据频率以升序或降序的排序方式排列频率表。
➢ 按值的升序排序:变量值由小到大排序。
➢ 按值的降序排序:变量值由大到小排序。
➢ 按计数的升序排序:频数由小到大排序。
➢ 按计数的降序排序:频数由大到小排序。
● 多个变量。
➢ 比较变量:所有变量的频数表集中输出,系统默认。
➢ 按变量组织输出:每一个变量单独输出一个频数表。
● 排除具有多个类别的表:变量的频数超过一定值时不显示频数分布表,系统默认是10,即如果变量的个数大于10,不输出相应的频数分布表。
图4-3 “频率:图表”对话框
图4-4 “频率:格式”对话框
实例一:“data04-01.sav”数据文件是某高校一个班级的学生期末考试语文、数学和化学三门课程的成绩,如图4-5所示。现要求利用频数分析对这个班级的语文成绩进行分析。
图4-5 “data04-01.sav”数据
(1)打开“data04-01.sav”数据文件,选择“分析”→“描述统计”→“频率”,弹出如图4-1所示的“频率”对话框。在左侧的变量列表中选中“语文”变量,单击 按钮,将其选入“变量列表”。
(2)单击 按钮,弹出如图4-2所示的“频率:统计”对话框。勾选“四分位数”、“平均值”、“中位数”、“众数”、“标准偏差”、“方差”、“范围”、“最小值”、“最大值”、“平均值的标准误差”、“偏度”和“峰度”复选框,单击 按钮返回主对话框。
(3)单击 按钮,弹出如图4-3所示的“频率:图表”对话框。勾选“直方图”选项及“显示正态曲线”复选框,单击 按钮返回主对话框。
(4)单击 按钮,弹出如图4-4所示的“频率:格式”对话框,勾选“按值的升序排序”选项和“比较变量”选项,单击 按钮返回主对话框。
(5)完成所有设置后,单击 按钮执行命令。
从表4-1可以看出,有效样本为30个,没有缺失值。语文的平均成绩为75.23分,中位数为74.50,标准编差11.258,最小值为53,最大值为97等。
表4-1 统计量
续表
从表4-2可以看出学生语文成绩的频数分布,从左至右依次是次数、百分比、有效百分比和累计百分比。
表4-2 语文
从图4-6可以看出学生语文成绩的直方图,从图中可以看出学生的语文成绩基本服从正态分布,其中以70-75分的学生居多。
图4-6 语文成绩的频数直方图