频数分布(frequency distribution)即观测值按大小分组,各个组段内观测值个数(频数)的分布,它是了解数据分布形态特征与规律的基础。医疗卫生研究中得到的原始数据资料往往都是庞杂无序的,可以通过分组整理,制作频数分布表或频数分布图(见第三章),以显示数据的分布规律,以便对资料进一步进行统计分析。
随机变量的频数分布具备两个基本特征——集中趋势(central tendency)与离散趋势(tendency of dispersion)。集中趋势和离散趋势同时存在,它们是揭示数据分布的类型和正确进行统计描述与统计推断的前提,是描述随机变量频数分布特征的两类重要指标体系。
集中趋势指一组变量值的集中倾向或中心位置,如例3-3所述,某地2012年抽样调查120名健康成人血清铜含量(μmol/L)数据,表现为变量值集中在某个中心值周围,如图5-1所示,以组段“14.00~”为中心,距离该组段越近则组段的频数和频率越大,组段“14.00~”的频数和频率最大,此即频数分布的集中趋势。
图5-1 某地120名健康成年人血清铜含量频数分布
由于同一总体中的个体或观测单位不可避免地存在各种差别,因此,该人群的血清铜含量不会是同一个数值,而是向中心值左右两侧分散,此即频数分布的离散趋势。
频数分布可分为对称分布(symmetric distribution)和非对称分布(skew distribution)两种类型。
1.对称分布 指集中位置居中、左右两侧的频数分布基本对称的频数分布。如图5-1所示,120名正常成年人血清铜含量分布基本为对称分布。对称分布又分为正态分布(normal distribution)和非正态分布(non-normal distribution)两种类型。正态分布是以集中性、对称性和均匀变动性为特征的分布,偏度和峰度是其两个特征,医药研究中所得资料,绝大多数是近似于正态分布的。若分布的峰态尖峭而尾部伸展,两尾部曲线在正态曲线之下,称为尖峭峰;如果峰顶平阔而尾部短促,两尾部曲线在正态曲线之上,则称平阔峰。无论峰态尖峭或平阔,均为非正态分布。
2.非对称分布 指集中位置偏倚、两侧频数不对称的频数分布,亦称偏态分布(skew distribution)。偏态分布又可分为正偏态(positive skewness)和负偏态(negative skewness)。正偏态分布也称为右偏态分布(skewed to the right distribution),特点是峰偏左(偏向观察值小的一侧),尾部向数轴右侧(观测值较大一端)伸延的频数分布,如图5-2所示;负偏态分布也称为左偏态分布(skewed to the left distribution),特点为峰偏右(偏向观察值大的一侧),长尾数轴向左侧(即观测值较小一端)伸延的频数分布,如图5-3所示。
图5-2 正偏态分布示意图
图5-3 负偏态分布示意图
此外,分布只有一个峰者称为单峰分布,出现两个或多个高峰者称为双峰或多峰分布。