统计学的一些基本概念贯穿于统计工作的全过程中,正确理解下列基本概念,有助于我们进行周密地设计,并严格按照设计方案搜集、整理、分析和表达数据资料。
总体(population)是根据研究目的所确定的同质观察单位某种变量值的集合。观察单位是指被研究的总体中的基本单位,即个体。如观察某社区60岁以上男性血压水平,则该社区所有60岁以上的男性居民的血压测量值就构成所描述的总体,该地每个60岁以上的男性居民就是一个观察单位。
总体具有同质性、群体性和差异性等三个主要特点:①同质性:是指总体中的各个单位都具有某种共同的属性或标志数值,如某社区60岁以上男性血压水平,要求观察对象为该社区常住人口、男性、60岁以上。同质性是总体的根本特征,只有个体单位是同质的,才能通过对个体特征的观察研究,归纳和揭示出总体的综合特征和规律性。②群体性:是指总体中包括的总体单位有足够多的数量,总体的群体性可使个别单位某些偶然因素的影响(如表现在数量上的偏高、偏低的差异)进行相互抵消,从而显示出总体的本质和规律性。③差异性(或称变异性):是指总体的各单位之间表现个体差异。例如,某社区60岁以上男性血压水平各不相同。
根据研究的总体是否有明确的观察单位数,总体可以分为有限总体和无限总体。有限总体中观察单位数是有限的或可知的,而无限总体的观察单位数是无限的或不可知的。在实际工作中,对总体中所有观察单位的特征与性质进行认识,一般情况下是没有必要,甚至不可能去对总体中每个观察单位进行全面的逐个研究,而常常是从总体中抽取部分个体来进行抽样研究。
样本(sample)是从总体中随机抽取的具有代表性的个体的集合。一个样本所包含的观察单位数目称为样本(含)量或样本数。抽样研究(sampling study)是从总体中抽取样本,通过对样本的定量或定性测量结果来推断总体的特征。抽样研究的目的是用样本的特征来正确地推断总体的特征,所以样本必须对总体具有良好的代表性,抽样研究时应注意样本的构成分布与总体构成分布基本上保持一致,样本量要足够大,并遵循随机抽样的原则抽取样本。
参数(parameter)是反映总体的统计指标,一般用希腊字母表达,如 μ (总体均数)、 σ (总体标准差)、 π (总体率)等;统计量(statistics)是反映样本的统计指标,通常用英文字母来表达,如 (样本均数)、 S (样本标准差)、 p (样本率)等。统计符号用斜体书写。
对某一事件而言,总体参数是该事件本身固有的、不变的,是一个稳定的数据,而且往往是未知的,而统计量则是随机的,一般是已知的或可通过计算来获得,并随着试验样本的不同而不同,但是有一定的分布规律,如小样本均数服从 t 分布,大样本均数服从正态分布等,这些规律是进行统计推断的理论基础。
误差(error)指观测值与真实值之差或样本统计量与总体参数之差。可分为随机误差与非随机误差,随机误差包括随机测量误差和随机抽样误差,非随机误差包括系统误差(偏倚)和过失误差等。
若在相同条件的控制下对某随机事件进行 n 次重复试验,某种结果出现的次数称为频数,频数与总试验次数之比称为频率(frequency)。当试验次数很多时,频率将趋近于一个较稳定的常数,这个常数即该事件发生的概率。
概率(probability)是反映随机事件发生的可能性大小的度量,用 P 表示,取值范围为0≤ P ≤1。根据客观现象发生的概率大小,可分为随机事件A(0< P <1)和确定事件(必然事件Ω的概率等于1,不可能事件Φ的概率等于0)。某事件发生的概率愈接近于1,表示该事件发生的可能性越大;反之,愈接近于0,表示该事件发生的可能性越小。在统计学中,人们通常将 P ≤0 . 05或 P ≤0 . 01的随机事件称为小概率事件。
人们在运用统计学进行数据的统计分析时,往往是由浅入深、循序渐进的,一般可以概括为统计描述与统计推断两个层面。
统计描述(statistical description)指应用适当的统计指标和统计图表来展示资料的数量特征和分布规律。统计描述是对原始资料的一种概括,主要是描述样本特征,不考虑抽样误差问题。描述的形式有:①列表描述:用统计表格来描述数据的特征,如频数表等。②图示描述:采用统计图来描述数据的特征,如直条图、直方图和线图等。③数字描述,采用统计指标来描述数据的特征,如平均数、标准差等。
统计推断(statistical inference)是通过样本所提供的信息来推断总体特征,考虑了抽样误差问题,推断的内容有总体参数的估计和假设检验。