卫生统计学（全国中医药行业高等教育“十四五”规划教材）最新章节_魏高文著

第二节
数值型资料图表表达

在实际工作中，由于所收集到的数值型资料往往有多个数据，一般需要用统计表和统计图来进行表达。

一、统计表

对搜集到的数值型资料，欲了解其分布规律，可对其进行分组整理，编制频数分布表（frequency distribution table）来描述。频数分布表简称频数表（frequency table），指将一组数据按照观测值的大小或类别分为不同组段或组别，然后将各个观测值归纳到各组段或组别中，并清点各组段或组别的观测值个数（即频数）所形成的表格。频数分布表的图形表示即为频数分布图。频数分布表和频数分布图可直观显示资料的分布类型和分布特征。

在频数分布表中，通常包括各组段或组别及其相应的频数、频率、累计频数和累计频率。频数指各组段或组别中观测值的个数。频率表示该组段或组别的频数在总例数中所占的比例，各组的频率之和为100%。某组段或组别的累计频数为该组及之前各组的频数之和。累计频率则为各组累计频数在总例数中所占的比例，最后一个组段或组别的累计频率为100%。

（一）连续型数值变量的频数表

【例3-3】 2012年抽样调查某地120名健康成人血清铜含量（μmol/L），数据见表3-3，试编制血清铜含量的频数分布表。

表3-3　2012年某地120名健康成人血清铜含量整理表（μmol/L）

续表

编制频数分布表的步骤如下：

1.求极差（range） 极差也称全距，即一组资料最大值与最小值之差，记作 R 。

R =19.84-9.23=10.61（μmol/L）

2.确定组段数（ k ）　根据样本含量多少确定组段数，通常取10～15组。组段数过多则计算繁琐，组段数过少难以充分反映数据的分布特征。本例样本含量为120，可将组段数定为11。

3.求组距（class interval） 组距即各组段之间的间隔，记为 i 。对于分布均匀的数据资料，一般取相等组距。组距可用极差除以组段数求得，一般取便于阅读和计算的数字。

i =10.61/11=0.96≈1（μmol/L）

4.列组段 每个组段的下限记为 L ，上限记为 U 。变量 x 的所有观测值按照 L ≤ x ＜ U 归入相应组段。各组段之间应紧密衔接，既不能留有空隙，也不能相互重复或包含。组段按照由小到大的顺序排列，第一个组段应包含所有观测值中的最小值，最后一个组段应包含所有观测值中的最大值。组段常用半开半闭区间（左闭右开）表示，即各组段只标明下限值，而不标出上限值，但最后一个组段一般采用闭区间表示，见表3-4的（1）列。

5.分组划记并计算频数 各组段的频数见表3-4的（2）列，在此基础上可求各组段的频率、累计频数、累计频率等，完成频数表。

表3-4　2012年某地120名健康成人血清铜含量（μmol/L）频数分布

从表3-4可看出，健康成人血清铜含量主要集中为11.00～18.00（μmol/L），而小于11.00μmol/L或大于18.00μmol/L的人数则较少。

（二）离散型数值变量的频数表

【例3-4】 某妇幼保健院对2013年住院分娩的100名产妇调查了产前检查次数，数据见表3-5，试对产前检查次数编制频数分布表。

表3-5　2013年某妇幼保健院100名产妇产前检查次数整理表（次）

离散型数值变量的取值不连续，可直接清点各变量值及相同变量值出现的频数并列于表3-6的（1）（2）列，并在此基础上计算相应的频率、累计频数和累计频率，分别列于表3-6的（3）（4）（5）列。

从表3-6可看出，产前检查数为5～8次的产妇最多，不检查或检查次数少的孕妇人数较少，产前检查次数＞8次的孕妇也不多。

表3-6　2013年某妇幼保健院100名产妇产前检查次数频数分布

二、统计图

描述数值型资料常用的统计图有以下类型：

1.直方图（histogram） 主要用于描述连续型数值变量的频数分布。直方图的横轴表示数值变量的组段，纵轴表示各组段的频率密度（频率/组距）。由于频率直方图的纵坐标为频率密度，所以频率直方图的总面积为100%。直方图的纵坐标可以是频数、频率、频率密度等，形成不同的直方图。如用直方图3-1表示2012年某地120名健康成人血清铜含量（μmol/L）的频数分布。注意：①直方图的纵轴尺度应从0开始，中间不宜折断，否则会改变各组段的数量关系。②直方图的各直方之间紧密衔接，不应留有空隙。

图3-1　某地120名健康成人血清铜含量频数分布

2.直条图（bar chart） 用于反映相互独立的事物之间的数量对比关系，适用于离散型数值变量和分类变量。直条图是用等宽直条的长短表示相互独立的若干事物某项指标值的大小。所比较的指标可以是绝对数，也可以是相对数。横轴表示事物的类别，纵轴表示对应的指标值。根据研究对象的分组是单一层次还是两层次（或多层次），可分为单式条图和复式条图两种：①单式条图：研究对象按照一个层次分组，横轴上只有一个分组变量，此时图中有多少个等宽直条，就代表该分组变量有多少个水平。如用图3-2表示2013年某妇幼保健院100名产妇产前检查次数的频数分布，该图即为单式条图。②复式条图：研究对象按照两个（或多个）层次分组，横轴上有两个（或多个）分组变量。此时图中有多少个直条组合，就代表这些分组变量有多少种水平组合。如用图3-3表示2012年北京和天津两地城乡每千人口的医疗卫生机构床位数，该图属于复式条图。

图3-2　2013年某保健院100名产妇产前检查次数频数分布

图3-3　2012年北京和天津两地城乡每千人口的医疗卫生机构床位数

注意：①直条图的纵轴尺度一般从0开始，中间不宜折断，否则不能正确反映各类别事物指标值的实际比例。②各直条的宽度应相等，直条的间隔也应相等，间隔的宽度常与直条宽度相等或为直条宽度的1/2。③直条的排列可按指标值的大小排列，也可按分组的习惯顺序排列，以便比较。

3.箱式图（box plot） 综合描述数值变量的平均水平和变异程度，可用于同类资料之间分布特征的直观比较，还可显示数据中的离群值（常用“○”表示）或极端值（常用“*”表示）。箱式图使用了变量的5个指标，即最小值、下四分位数（ P ₂₅ ）、中位数（ P ₅₀ ）、上四分位数（ P ₇₅ ）和最大值。 P ₂₅ 和 P ₇₅ 对应“箱子”的两端，“箱子”的中间横线是 P ₅₀ ， P ₂₅ 和最小值之间、 P ₇₅ 和最大值之间则分别构成“箱子”的上下两条“触须”。有时还可在箱式图的“触须”外标出远离大部分观测值的离群值或极端值。箱式图中，“箱子”越长，显示数据的变异程度越大。若中间横线在“箱子”的中点，且“箱子”的上下两条“触须”等长，则表明数据为对称分布，否则为偏态分布。箱式图特别适用于多组数据分布的比较。

如图3-4为某地40名2型糖尿病患者使用药物A、B治疗后空腹血糖值的箱式图。可以看出，两种药物治疗后患者空腹血糖值的分布可能都是偏态分布；使用药物A治疗后空腹血糖值的平均水平低于药物B，变异程度高于药物B；药物B箱体上端出现了一个离群点，为28号数据。

图3-4　2型糖尿病患者两种药物治疗后空腹血糖值的分布

4.散点图（scatter diagram） 主要用于双变量资料的相关分析，以判断两变量间是否存在相关关系，以及相关的方向和密切程度。散点图的横轴和纵轴各代表一个变量；以直角坐标系中的点表示各研究对象，每个点的横坐标和纵坐标分别对应两个变量数值的大小；通过直角坐标系中各点的密集程度和趋势来表示两变量间的关系。横轴和纵轴尺度的起点不一定从0开始，可根据资料实际情况而定。如图3-5显示10只大白鼠进食量与增重量之间的关系。

图3-5　10只大白鼠进食量与增重量的关系

5.线图（line chart） 通过线段的升降来表示事物随时间的变化趋势，或某现象随另一现象变化的情况，适用于连续型资料。横轴通常是某一连续型变量（如时间或年龄），纵轴是某统计指标。根据图中线条数量的多少，可分为单式线图和复式线图。前者表示某一事物或现象的动态变化，后者表示两种或两种以上事物或现象的动态变化。有几种事物或现象，图中就有几条线，可用不同的图线（实线、虚线等）来表示，并附图例加以说明。根据纵轴尺度的不同，又可分为普通线图和半对数线图（semi-logarithmic line graph）。

普通线图：其横轴、纵轴均为算术尺度，侧重表示事物的变化趋势和变化幅度。纵轴尺度一般从0开始，也可不从0开始；且纵轴尺度必须等距（或具有规律性）。可按时间或年龄等顺序确定各坐标点，并用短线依次连接各点即可，如图3-6所示。注意图线一般应按实际数字绘制成折线，不能任意改为光滑的曲线。

图3-6　1990～2010年我国不同产业贡献率（%）普通线图

半对数线图：其横轴为算术尺度，纵轴则为对数尺度，侧重表达事物的变化速度。若两组或多组数据数量相差悬殊，宜选择半对数线图。如图3-7所示，其原始数据与图3-6完全相同，横轴仍为时间，纵轴取产业贡献率以10为底的对数。

对比图3-6与图3-7，可以看到1990～2010年我国第一产业贡献率变化的幅度与速度均大于第三产业。

图3-7　1990～2010年我国不同产业贡献率（%）半对数线图

第二节 数值型资料图表表达

一、统计表

（一）连续型数值变量的频数表

（二）离散型数值变量的频数表

二、统计图

第二节
数值型资料图表表达