人们通常研究有关对象的某一数量指标,把实验全体可能的观察值称为总体,每一个可能的观察值称为个体。总体中所包含的个体个数称为总体容量,容量为有限的称为有限总体,容量为无限的称为无限总体。因而,总体是在进行统计分析时,研究对象的全部;个体是组成总体的每个研究对象;样本是从总体中按一定的规则抽出的个体的全部。
对于随机变量的总体,可以用 X 表示。描述该总体的分布函数 F ( x )称为总体分布函数。物理实验的测量值是随机变量,如在相同的实验条件下,进行 n 次独立的测量,随机变量 X 则应为 n 个测量值,即 x 1 , x 2 ,…, x n ,称为一个测量列。测量值的集合( x 1 , x 2 ,…, x n )称为随机变量 X 的一个容量为 n 的样本。
随机变量可分为离散型随机变量和连续型随机变量两种。所取的可能值能够一一列出的随机变量,称为离散型随机变量;所取的可能值连续存在于某区间的随机变量,称为连续型随机变量。
定义随机变量 X 的分布函数为:
对于任意实数 x 1 , x 2 ( x 1 < x 2 )均有
已知随机变量的分布函数 F ( x ),就便于确定 X 出现在任一区间( x 1 , x 2 )上的概率。
分布函数基本性质:
① 0≤ F ( x )≤1。
② F ( x )是变量的非减函数。
③ = 0; = 1。
无论对离散型随机变量,还是对连续型随机变量,分布函数的定义均适用。
经典统计推断的主要思想就是用样本来推断总体的状态。经验分布函数是在这一思想下的一种方法,通过样本分布函数来估计总体的分布函数。
定义经验分布函数为:
设随机子样观测值为 x 1 , x 2 ,…, x n ,是对总体 X 的简单随机抽样结果。将观测值从小到大,按顺序重新排列成 ,令
从频率上看,每个个体出现的频率为 1 / n 。将函数 F n ( x )用直方图绘出,得到了待求总体分布函数的一个近似,若子样观测值的数量 n 增大,将出现一条与总体分布曲线更加接近的曲线,如图 2.1 所示。这种阶梯形曲线所表现的函数 F n ( x )称为经验分布函数,将以概率为 1 收敛于总体分布函数 F ( x )。
图 2.1 经验分布函数
对于连续总体分布的描述工具是分布函数 F ( x )或者概率密度函数 f ( x ),由于总体分布的未知性, F ( x )或 f ( x )的精确表达式也是未知的。下面介绍直方图和经验分布函数来推断 F ( x )或 f ( x )。
设 x 1 , x 2 ,…, x n 是总体 X 的样本观察值,将坐标轴分为若干小区间,记下观察值落在每个小区间中的个数,根据大数定律中频率近似原理,从这些个数来推断总体在每个小区间的密度。具体方法如下:
①找出 ,取 a 略小于 , b 略大于 。
②将[ a , b ]分成 m 个小区间, m < n 小区间长度可以不等,设分点为:
在分小区间时,每个小区间都有观察值。
③记 n j 为落在小区间 中观察值的个数(频数),计算频率 ,列表分别记下各小区间的频数、频率。
④在直角坐标系的横轴上,标出 各点,分别以 为底边,作高为 的矩形, , j = 1,2,…, m ,即得直方图(图 2.2)。
图 2.2 直方图
直方图对应的分段函数
有
即有
Δ t j 越小,近似程度越高。
这样样本容量 n 无穷大,Δ t j →0 ( j = 1,2,…, m )直方图的阶梯形折线无限接近于密度曲线。