变量(variable)是指观察单位的某种特征或属性,即研究的项目或观察指标。变量一般可分为两大类:数值变量与分类变量。数值变量为定量变量,一般为连续型随机变量(continuous random variable),即在某一区间可取任何值的变量;也可为离散型随机变量(discrete random variable),即在某一区间只可取有限的几个值的变量。分类变量为定性变量,为离散型随机变量,又可分为无序分类变量和有序分类变量,无序分类变量按质分类,有序分类变量则按等级顺序进行分类。
变量的观测结果称为变量值(value of variable)或观察值(observed value)。如观察某社区60岁以上男性舒张压水平,则“血压”为变量,舒张压测量值(如100mmHg)为变量值。
数据(data)也称为资料,是由变量及其观测结果(变量值)所构成的表示客观事物属性的未经加工的原始素材。数据可以是符号、文字、数字、语音、图像、视频等,如各种论文数据库几乎涵盖了所有类型的数据,其中数字是人们通常认识中的狭义的数据。数据和信息是不可分离的,数据经过加工后就成为信息,数据是信息的表达形式和载体,信息是数据的内涵。数据本身没有意义,数据只有对实体行为产生影响时才成为信息。数据统计分析的方法主要取决于研究目的、设计方法、数据类型与分布特征、样本量与组别数等因素。统计分析的数据按最终呈现结果的性质,一般可分为计量资料、计数资料和等级资料等三种类型,其与变量的关系如图1-1所示。
图1-1 变量与统计数据的类型示意图
计量资料(measurement data)又称定量资料(quantitative data)或数值型资料(numerical data),是对观察单位用定量方法测定某项指标量的大小所得到的资料。计量资料是由数值变量所构成的,一般是连续型随机变量,也可以是离散型随机变量。
计数资料(enumeration data)又称定性资料(qualitative data)或无序分类资料(unordered categorical data),是将事物按不同的属性归类,清点每一类的数量多少所得到的资料。根据类别数的不同,计数资料分为二分类资料(binary data)和无序多分类资料(unordered categorical data)。计数资料属于离散型随机变量,如体检合格与不合格的人数。
等级资料(ordinal data)又称半定量资料(semi-quantitative data)或有序多分类资料(ordered categorical data),是将事物属性按等级顺序进行归类所得到的资料。由于等级资料最后是以计数的形式来表达资料的,因此也属于离散型随机变量,如按临床疗效等级分为痊愈、显效、好转和无效等来统计例数。
在统计分析时,根据分析目的要求,可将各种资料进行相互转化。现将三类资料的主要特征进行归纳,见表1-1。
表1-1 三类统计资料的主要特征比较