大数据管理与应用最新章节_王刚著

第二章
大数据管理与应用的数学基础

线性代数、优化和统计是大数据管理与应用的重要数学基础，大数据管理与应用的核心要素之一是机器学习，机器学习中的数据表示、运算规则、模型性质、模型优化等均离不开这些数学基础。在本章中你将了解线性代数、优化和统计的基本定义，掌握线性代数、优化和统计中的常用方法，从而为后续深入学习机器学习方法打下基础。

■ 学习目标

·理解线性代数、优化和统计的基本定义

·掌握线性代数的基本运算方法

·掌握无约束最优化和约束最优化问题的基本解决方法

·掌握描述性统计和推断性统计的基本方法

■ 知识结构图

第一节
线性代数基础

一、向量和矩阵

（一）标量

标量（Scalar）是一个单独的数，它通常使用小写的斜体变量进行表示。标量有明确的类型，例如实数标量 x ∈ R 和自然数标量 n ∈ N 。

（二）向量

向量（Vector）是一列有序排列的数，它通常使用小写的黑斜体变量进行表示。通过向量次序中的索引可以确定每个单独的数，例如 x ₁ 表示向量 x 中的第一个元素，第二个元素可以表示为 x ₂ 。向量中的元素需要有明确的类型，例如由 n 个实数组成的向量可以表示为 x =( x ₁ , x ₂ ,…, x _n ) ^T ，且 x ∈ R ⁿ 。当向量 x 中的 n 个元素满足时，该向量称为“单位向量”（Unit Vector）。若长度相同的两个向量 x 和 y 的点积为0，即 x · y = x ₁ y ₁ + x ₂ y ₂ +…+ x _n y _n =0，则称 x 和 y 正交（Orthogonal）。

（三）矩阵

矩阵（Matrix）是一个二维数组，它通常使用大写的粗体变量进行表示。一个高为 m 、宽为 n 的实数矩阵记为 A ∈ R ^m ^× ⁿ ， A _i _,: 表示矩阵 A 的第 i 个行向量， A _:, _j 表示矩阵 A 的第 j 个列向量， a _i _, _j 表示矩阵 A 的第 i 行和第 j 列相交的元素。一个两行两列的矩阵可以表示为

当矩阵的长和宽相等时，该矩阵为方阵（Square Matrix）。除主对角线以外的元素均为0的矩阵称为对角矩阵（Diagonal Matrix）。主对角线上的元素均为1的对角矩阵称为单位矩阵（Identity Matrix），通常用 I 或 E 来表示。若一个矩阵中的元素以主对角线为轴能够对称，即满足 a _i _, _j = a _j _, _i ，该矩阵称为对称矩阵（Symmetric Matrix）。当矩阵的行向量和列向量均为正交的单位向量时，该矩阵称为正交矩阵（Orthogonal Matrix）。

（四）张量

张量（Tensor）是坐标超过两维的数组。例如，一个三维张量中坐标为( i , j , k )的元素可以表示为 a _i _, _j _, _k 。

（五）范数

范数（Norm）在机器学习中有重要的作用，它能够衡量向量或矩阵的大小，并满足非负性、齐次性和三角不等式。向量 x 的 L ^p 范数可以表示为

式中， p ∈ R ，且 p ≥1。此外，单位向量是 L ² 范数为1的向量，也称该向量具有单位范数（Unit Norm）。

矩阵 A 的Frobenius范数可以表示为

二、向量和矩阵运算

（一）矩阵的转置、行列式、逆运算与迹运算

1 . 转置

转置（Transpose）是将矩阵以主对角线为轴进行翻转。矩阵 A 的转置矩阵记为 A ^T ，假设 A 和 A ^T 中元素分别为 a _i _, _j 和 b _i _, _j ，则有 a _i _, _j = b _j _, _i 。

2.行列式

行列式（Determinant）是将方阵 A 映射到实数的函数，记为det（ A ）。行列式能够描述线性变换对矩阵空间大小的影响。方阵 A 的行列式可通过以下方式计算：

式中， M _ij 为方阵 A 的代数余子式。

3.逆运算

方阵 A 的逆（Inverse）记作 A ^-1 ，且满足 AA ^-1 = I 。当 A 可逆时，有：

式中， A ^* 为矩阵 A 的伴随矩阵，由 A 中各元素的代数余子式构成。

若 A 为正交矩阵，即 A ^T A = AA ^T = I ，则有 A ^-1 = A ^T 。

4.迹运算

迹（Trace）是矩阵主对角线上的元素之和，记为。矩阵的迹运算有以下性质：

（二）矩阵和向量相乘

若矩阵 A 的形状为 m × n ，矩阵 B 的形状为 n × p ，则矩阵 A 和 B 相乘能够得到形状为 m × p 的矩阵 C ，即 C = A × B 。矩阵乘法操作可定义为

两个相同长度的向量 x 和 y 的点积可以看作矩阵相乘 xy ^T 。矩阵乘法有以下性质：

（三）矩阵和向量求导

矩阵和向量的导数有以下常用的运算规则：

矩阵的迹运算的导数有以下常用运算规则：

三、矩阵分解

（一）特征分解

特征分解（Eigendecomposition）能够将矩阵分解为一组特征向量（Eigenvector）和特征值（Eigenvalue），是使用最广的矩阵分解之一。对非零向量 u 进行线性变换（与 A 相乘）后， u 只发生放缩变换，则称 u 为 A 的特征向量，即

其中 λ 为该特征向量对应的特征值。

假设方阵 A 有 n 个线性无关且正交的特征向量{ u ₁ , u ₂ ,…, u _n }，其对应的特征值为{ λ ₁ , λ ₂ ,…, λ _n }。令正交矩阵 U =（ u ₁ , u ₂ ,…, u _n ），对角矩阵 Λ =diag( λ ₁ , λ ₂ ,…, λ _n )，方阵 A 的特征分解可以表示为

若 A 为实对称矩阵，有

方阵 A 的所有特征值均为正数时称为正定，所有特征值均为负数时称为负定，所有特征值均为非负数时称为半正定。

（二）奇异值分解

当矩阵 A 为奇异矩阵时，需要使用奇异值分解（Singular Value Decomposition，SVD）进行矩阵分解。每个实数矩阵都可以进行奇异值分解，但不一定能够进行特征分解，因此奇异值分解的应用更加广泛。与特征分解类似，奇异值分解能够将形状为 m × n 的矩阵 A 分解为三个矩阵的乘积：

式中， U 是一个形状为 m × m 的正交矩阵，其列向量称为左奇异向量（Left Singular Vector），它能够通过求解实对阵矩阵 AA ^T = UΣV ^T VΣ ^T U ^T = UΣΣ ^T U ^T 的特征向量得到。类似地， V 是一个形状为 n × n 的正交矩阵，其列向量称为右奇异向量（Right Singular Vector），它能够通过求解实对阵矩阵 A ^T A = VΣ ^T U ^T UΣV ^T = VΣ ^T ΣV ^T 的特征向量得到。 Σ 是一个形状为 m × n 的对角矩阵，其对角线上的非零元素称为矩阵 A 的奇异值（Singular Value），同时也是 AA ^T 和 A ^T A 特征值的平方根。

第二节
优化基础

一、最优化

（一）最优化问题

在现实社会中，人们经常遇到这样一类问题：判别在一个问题的众多解决方案中什么样的方案最佳，以及如何找出最佳方案。例如，在资源分配中，如何分配有限资源，使得分配方案既能满足各方面的需求，又能获得好的经济效益；在工程设计中，如何选择设计参数，使得设计方案既能满足设计要求，又能降低成本等。这类问题就是在一定的限制条件下使得所关心的指标达到最优。最优化就是为解决这类问题提供理论基础和求解方法的一门数学学科。

在量化求解实际最优化问题时，首先要把实际问题转化为数学问题，建立数学模型。最优化数学模型主要包括三个要素：决策变量和参数、约束或限制条件、目标函数。

连续变量优化模型的数学模型一般形式可以写为：

式中， x =( x ₁ , x ₂ ,…, x _n ) ^T ∈ R ⁿ ， x 即是 n 维向量，是指需要确定的未知数，在实际问题中也常常把变量 x ₁ , x ₂ ,…, x _n 叫决策变量； f ( x )， h _i ( x )( i =1,2,…, m )， g _j ( x )( j =1,2,…, p )为 x 的函数，s.t.为英文“subject to”的缩写，表示“受限制于”。

求极小值的函数 f ( x )称为目标函数，是要求达到极小的目标的衡量。 h _i ( x )( i =1,2,…, m )，和 g _j ( x )( j =1,2,…, p )称为约束函数，其中 h _i ( x )=0称为等式约束，而 g _j ( x )≥0称为不等式约束。

对于求目标函数极大值的问题，由于max f ( x )与min[ -f ( x )]的最优解相同，因而可转化为目标函数的相反数求解极小值：min[ -f ( x )]。

满足约束条件式（2-35）和式（2-36）的 x 称为可行解，由全体可行解构成的集合称为可行域，记为 D ，即

对一般模型（P），最优解具有如下定义：

定义2-1 若存在 x ^* ∈ D ，使得 x ≠ x ^* 对任意 x ∈ D ，均有 f （ x ^* ）≤ f （ x ），则称 x ^* 为最优化问题（P）的整体最优解。

定义2-2 若存在 x ^* ∈ D ，使得对任意 x ∈ D ，均有 f （ x ^* ）＜ f （ x ），则称 x ^* 为最优化问题（P）的严格整体最优解。

定义2-3 若存在 x ^* ∈ D 及 x ^* 的一个邻域 N _ε （ x ^* ），使得对任意 x ∈ D ∩ N _ε （ x ^* ），均有 f （ x ^* ）≤ f （ x ），则称 x ^* 为最优化问题（P）的局部最优解，其中， ε ＞0}。

定义2-4 若存在 x ^* ∈ D 及 x ^* 的一个邻域 N _ε （ x ^* ），使得对任意 x ∈ D ∩ N _ε （ x ^* ）， x ≠ x ^* ，均有 f （ x ^* ）＜ f （ x ），则称 x ^* 为最优化问题（P）的严格局部最优解。

根据数学模型中有无约束函数分类，最优化问题可分为有约束的最优化问题和无约束的最优化问题。在数学模型中 m =0， p =0时，即不存在约束的最优化问题称为无约束最优化问题，否则称为约束最优化问题。

（二）凸集

凸集和凸函数在最优化的理论中十分重要，称为凸优化。

凸优化具有良好的性质，比如局部最优解是全局最优解；凸优化问题是多项式时间可解问题，如线性规划问题。此外，很多非凸优化或NP-Hard问题也可以使用对偶、松弛（扩大可行域，去掉部分约束条件）方法转化成凸优化问题，在SVM算法中，为了对目标函数进行优化，就使用了拉格朗日乘子法、对偶问题、引入松弛因子等。

因此，本节主要介绍凸集的相关定义和性质。

1.凸集

定义2-5 设集合 D ⊂ R ⁿ ，若对于任一点 x ， y ∈ D 及实数 α ∈[0，1]，都有：

则称集合 D 为凸集。

凸集的直观几何表示如图2-1所示：左侧为凸集，右侧为非凸集，因为右边的集合中任意两点 x 和 y 连线之间的点有时不属于该集合。

图2-1 凸集的直观几何表示

凸集具有如下性质（设 D _i ⊂ R ⁿ ， i =1，2，…， k ）：

1）设 D ₁ , D ₂ ,…, D _k 是凸集，则它们的交 D = D ₁ ∩ D ₂ ∩…∩ D _k 是凸集；

2）设 D 是凸集， β 为一实数，则集合 βD ={ y|y = β x , x ∈ D }是凸集；

3）设 D ₁ , D ₂ 是凸集，则 D ₁ 与 D ₂ 的和 D ₁ + D ₂ ={ y|y = x + z , x ∈ D ₁ , z ∈ D ₂ }是凸集。

2.凸组合

定义2-6 设 x _i ∈ R ⁿ ， i =1，2，…， k ，实数 λ _i ≥0，，则称为 x ₁ ， x ₂ ，…， x _k 的凸组合。

由凸集的定义知，凸集中任意两点的凸组合属于凸集。

3.极点

定义2-7 设 D 是凸集，若 D 中的点 x 不能称为 D 中任何线段上的内点，则称 x 为凸集 D 的极点。

极点的直观几何表示如图2-2所示。

图2-2 极点的直观几何表示

（三）凸函数

明确凸集的概念后，可以进一步介绍凸函数的定义和性质。凸函数具有很好的极值特性，这使它在非线性规划中占有重要的地位。凹函数与凸函数相似，凸函数具有全局极小值，凹函数具有全局极大值，两者之间可以很方便地进行转换。

1.凸函数

定义2-8 设函数 f （ x ）定义在凸集 D ⊂ R ⁿ 上。若对于任意的 x ， y ∈ D 及任意实数 α ∈[0，1]，都有

则称 f ( x )为凸集 D 上的凸函数。

对于一元凸函数，其几何表现如图2-3所示。

图2-3 一元凸函数的几何表现

在曲线上任取两点，之间的弦位于弧之上。

2.严格凸函数

定义2-9 设函数 f （ x ）定义在凸集 D ⊂ R ⁿ 上。若对于任意的 x ， y ∈ D ， x ≠ y ，及任意实数 α ∈（0，1），都有

则称 f ( x )为凸集 D 上的严格凸函数。

3.凸函数的性质

1）设 f （ x ）是凸集 D ⊂ R ⁿ 上的凸函数，实数 k ≥0，则 kf （ x ）也是 D 上的凸函数；

2）设 f ₁ （ x ）， f ₂ （ x ）是凸集 D ⊂ R ⁿ 上的凸函数，实数 λ ≥0， μ ≥0，则 λf ₁ （ x ）+ μf ₂ （ x ）也是 D 上的凸函数；

3）设 f （ x ）是凸集 D ⊂ R ⁿ 上的凸函数， β 为实数，则水平集 s ( f , β )={ x|x ∈ D ， f （ x ）≤ β }是凸集；

4） f （ x ）是凸集 D ⊂ R ⁿ 上的凹函数的充分必要条件是[ -f （ x ）]是凸集 D ⊂ R ⁿ 上的凸函数。

4.凸函数的判断

判断一个函数是否为凸函数，最基本的方法是使用其定义。但对于可微函数，下面介绍的两个判定定理可能更为有效。

定理2-1（一阶判别定理） 设在凸集 D ⊂ R ⁿ 上 f （ x ）可微，则 f （ x ）在 D 上为凸函数的一阶充分必要条件是对任意的 x ， y ∈ D ，有

定理2-2（二阶判别定理） 设在开凸集 D ⊂ R ⁿ 内 f （ x ）二阶可微，则

1） f （ x ）为凸集 D 内的凸函数的二阶充分必要条件为在 D 内任何一点 x 处， f （ x ）的二阶偏导数组成的矩阵即黑塞矩阵∇ ² f ( x )为半正定矩阵。

2）若在 D 内∇ ² f ( x )为正定矩阵，则 f （ x ）在凸集 D 内为严格凸函数。

5.常用凸函数判断方法

下面给出一些常用的快速判别凹、凸函数的方法：

1）指数函数是凸函数；

2）对数函数是凹函数，负对数函数是凸函数；

3）对一个凸函数进行仿射变换，可以理解为线性变换，结果仍为凸函数；

4）二次函数是凸函数（二次项系数为正）；

5）正态分布（又称高斯分布）函数是凹函数；

6）常见的范数函数是凸函数；

7）多个凸函数线性加权，如果权值大于等于零，那么整个加权结果函数为凸函数。

二、无约束最优化问题

这里讨论无约束最优化问题的数学模型

求解无约束最优化问题（P）的基本方法是给定一个初始点 x ₀ ，依次产生一个点列 x ₁ ， x ₂ ，…， x _k ，…，记为{ x _k }，使得或者某个 x _k 恰好是问题的一个最优解，或者该点列{ x _k }收敛到问题的一个最优解 x ^* ，这就是迭代算法。

在迭代算法中由点 x _k 迭代到 x _k ₊₁ 时，要求 f ( x _k ₊₁ )≤ f ( x _k )，称这种算法为下降算法，点列{ x _k }的产生，通常由两步完成。首先在 x _k 点处求一个方向 p _k ，使得 f ( x )沿方向 p _k 移动时函数值有所下降，一般称这个方向为下降方向或搜索方向。然后以 x _k 为出发点，以 p _k 为方向做射线 x _k + α p _k ，其中 α >0，在此射线上求一点 x _k ₊₁ = x _k + α _k p _k ，使得 f ( x _k ₊₁ )< f ( x _k )，其中 α _k 称为步长。

下降法如算法2-1所示：

对于迭代算法，我们还要给出某种终止准则。当某次迭代满足终止准则时，就停止计算，而以这次迭代所得到的点 x _k 或 x _k ₊₁ 为最优解 x ^* 的近似解，常用的终止准则有以下几种。

1）‖ x _k ₊₁ -x _k ‖＜ ε 或；

2）| f （ x _k ₊₁ ） -f （ x _k ）|＜ ε 或；

3）‖∇ f （ x _k ）‖=‖ g _k ‖＜ ε ；

4）上述三种终止准则的组合。

其中， ε >0是预先给定的适当小的实数。

下面介绍几种常用的优化算法。

（1）一维搜索。

最优化问题有明显的几何意义，往往可以用图解法获得最优解。一维搜索又称一维优化，是指求解一维目标函数的最优解的过程，已知 x _k ，并且求出了 x _k 处的下降方向 p _k ，从 x _k 出发，沿方向 p _k 求目标函数的最优解，即求解问题

或者

称为一维搜索，设其最优解为 α _k ，于是得到一个新点

所以一维搜索是求解一元函数 φ ( α )的最优化问题（也叫一维最优化问题）。我们把此问题仍表示为

（2）最速下降法。

对于无约束最优化问题考虑下降算法，最速下降法是其他许多算法的基础，它的计算过程就是沿梯度下降的方向求解极小值。在多元函数 f ( x )中，由泰勒公式有

由于

式中， θ 为 p 与 -g ( x )的夹角。当 θ =0°时，cos θ =1，因此，负梯度方向使目标函数 f ( x )下降最快，称为最速下降方向。

最速下降法如算法2-2所示：

（3）牛顿法。

最速下降法的本质是用线性函数去近似目标函数，可以考虑对目标函数的高阶逼近得到快速算法，牛顿法就是通过用二次模型近似目标函数得到的。假设 f （ x ）是二阶连续可微函数，设 x _k 为 f （ x ）的极小点 x ^* 的一个近似，将 f （ x ）在 x _k 附近做泰勒展开，有

式中， f _k = f （ x _k ）， g _k = g （ x _k ）， G _k = G （ x _k ），若 G _k 正定，则 q _k （ x ）有唯一极小点，将它取为 x ^* 的下一次近似 x _k ₊₁ 。由一阶必要条件可知， x _k ₊₁ 应满足

即

令 x _k ₊₁ = x _k + p _k ，其中 p _k 称为牛顿方向，应满足

上述方程组称为牛顿方程，也可以从中解出 p _k 并代入迭代公式，得到

即称为牛顿迭代公式。

根据上面推导，牛顿法如算法2-3所示：

（4）共轭梯度法。

牛顿法每步计算量很大，因此放松要求，认为经过有限次迭代就可得到正定二次函数极小点的算法是比较有效的。共轭梯度法的基本思想是在共轭方向法和最速下降法之间建立某种联系，以求得到一个既有效又有较好收敛性的算法。

对正定二次函数，由初始下降方向取为

确定共轭方向，并且采用精确一维搜索得到的共轭梯度法，在 m ( m ≤ n )次迭代后可求得二次函数的极小点，并且对所有 i ∈{1,2,…, m }，有

然后通过设法消去表达式中的 G ，使算法便于推广到一般的目标函数。

（5）拟牛顿法。

拟牛顿法不需要二阶导数的信息，有时比牛顿法更为有效。拟牛顿法是一类使每步迭代计算量少而又保持超线性收敛的牛顿型迭代法，条件类似于牛顿法，给出以下迭代公式：

其中， α _k 为迭代步长。若令，则上式为牛顿迭代公式。拟牛顿法就是利用目标函数值和一阶导数的信息，构造合适的 H _k 来逼近，使得既不需要计算，算法又收敛得快。为此， H _k 的选取应满足以下的条件：

1） H _k 是对称正定矩阵。显然，当 H _k 是对称正定矩阵时，若 g _k ≠0，则

从而 p _k = -H _k g _k 为下降方向。

2） H _k ₊₁ 由 H _k 经简单形式修正而得 H _k ₊₁ = H _k + E _k ，其中， E _k 称为修正矩阵，此式称为修正公式。

我们希望经过对任意初始矩阵 H ₀ 的逐步修正能得到的一个好的逼近。令

由泰勒公式，有

当 G _k ₊₁ 非奇异时，有，对于二次函数，该式为等式。

因为目标函数在极小点附近的性态与二次函数近似，所以一个合理的想法就是，如果使 H _k ₊₁ 满足

那么 H _k ₊₁ 就可以较好地近似。上式称为拟牛顿方程，如果修正公式满足拟牛顿方程，则相应算法称为拟牛顿法。显然 H _k ₊₁ y _k = s _k 中有( n ² + n )/2个未知数， n 个方程，所以一般有无穷多个解，故由拟牛顿方程确定的是一族算法，称为拟牛顿法。

三、约束最优化问题

在解决实际问题时，经常会遇到约束最优化问题，这类优化问题要比无约束最优化问题困难得多，也复杂得多。而由于约束最优化问题的应用极其广泛，所以人们一直在努力寻找它的求解方法，目前已出现很多种有效的求解方法。

本节主要研究一般性的约束最优化问题：

的计算方法。

其中，问题（P1）的可行域为 D ={ x|c _i （ x ）=0, i =1,2,…, l , c _i ( x )≥0, i = l +1, l +2,…, m }。

（一）约束优化问题的最优性条件

约束优化问题的最优性条件是指最优化问题的目标函数与约束函数在最优解处应满足的充分条件、必要条件和充要条件，是最优化理论的重要组成部分，对最优化算法的构造及算法的理论分析都是至关重要的。

对一般性优化问题（P1），可给出部分库恩-塔克必要定理的内容：

定理2-3（库恩-塔克必要条件） 若

1） x ^* 为局部最优解，其有效集 I ^* ={ i|c _i （ x ^* ）=0, i ∈ I }；

2） f （ x ）， c _i （ x ）( i =1,2,…, m )在点 x ^* 可微；

3）对所有 i ∈ E ∪ I ^* ，∇ c _i （ x ^* ）线性无关，则存在向量使得

通常称式（2-69）为库恩-塔克条件或KT条件，满足式（2-69）的点 x ^* 称为KT点。

m + n 维函数

称为问题（P1）的拉格朗日函数，于是式（2-69）中的即为∇ _x L （ x ^* ， λ ^* ）= 0 ，其中 λ ^* 称为拉格朗日乘子向量，矩阵

称为拉格朗日函数在处的黑塞矩阵，记为 ω ^* ，即。

定理2-4（二阶充分条件） 设 f （ x ）和 c _i （ x ）( i ∈ E ∪ I )是二阶连续可微函数，若存在 x ^* ∈ R ⁿ ， x ^* 为一般约束优化问题（P1）的可行点，且满足：

1）为KT对，且严格互补松弛条件成立；

2）对子空间中的任意 d ≠ 0 ，有 d ^T ω ^* d ＞0，则 x ^* 为问题（P1）的严格局部最优解。

（二）罚函数法与乘子法

目前已有许多种求解无约束最优化问题的有效的算法，所以一种自然的想法就是设法将约束问题的求解转化为无约束问题的求解。具体说就是根据约束的特点，构造某种“惩罚”函数，然后把它加到目标函数中，将约束问题的求解转化为一系列无约束问题的求解。这种“惩罚”策略将使得一系列无约束问题的极小点或者无限地靠近可行域，或者一直保持在可行域内移动，直至迭代点列收敛到原约束问题的最优解。这类算法主要有三种：外罚函数法、内罚函数法和乘子法。

1.外罚函数法

外罚函数法的惩罚策略是对于在无约束问题的求解过程中企图违反约束的那些迭代点给予很大的目标函数值，迫使这一系列无约束问题的极小点（迭代点）无限向容许集靠近。

对一般约束最优化问题

可行域为 D ={ x | c _i ( x )=0, i =1,2,…, l , c _i ( x )≥0, i = l +1, l +2,…, m }；

构造如下罚函数：

其中

显然有

函数 p （ x , σ ）称为约束问题（P1）的增广目标函数，称为问题的罚函数，参数 σ >0称为罚因子。

于是求解约束问题（P1）就转化为求增广目标函数 p （ x , σ ）的系列无约束极小min p （ x , σ _k ），即求解

其中 { σ _k }为正的数列，且 σ _k →+∞。

那么如何通过来求解约束最优化问题（P1）呢？首先给出一个定理：

定理2-5 对于某个给定 σ _k ，若是无约束问题的极小点，则是约束问题（P1）的极小点的充要条件是是约束问题（P1）的可行点。

证明：

1）必要性：因为极小点必定是可行点，所以必要性显然成立。

2）充分性：设，这里的 D 是约束问题（P1）的可行域，那么对于∀ x ∈ D ，总有：

所以是约束问题（P1）的极小点。

定理2-5说明，若由无约束问题解出的极小点是约束问题（P1）的可行点，那就是约束问题（P1）的极小点。此时只需求解一次无约束问题即可，但在实际中，这种情况很少发生，即一般不属于可行域 D ，那么这时求得的一定不是约束问题（P1）的极小点，需要再进一步增大 σ _k ，重新求解无约束问题，新的极小点会进一步向可行域靠近，也就是进一步向式（2-69）的极小点靠近。

构建外罚函数法的求解算法如算法2-4所示：

对已知一般性约束优化问题（P1）：

2.内罚函数法

为使迭代点总是可行点，使迭代点始终保持在可行域内移动，可以使用这样的“惩罚”策略，即在可行域的边界上竖起一道趋向于无穷大的“围墙”，把迭代点挡在可行域内，直到收敛到约束问题的极小点。不过这种策略只适用于不等式约束问题，并且要求可行域内点集非空，否则每个可行点都是边界点，都加上无穷大的惩罚，惩罚方法也就失去了意义。

对不等式约束问题

当 x 从可行域 D ={ x ∈ R ⁿ |c _i ( x )≥0, i =1,2,…, m }的内部趋近于边界时，则至少有一个 c _i ( x )趋于零，因此，可构造如下增广目标函数：

其中或称为内罚函数或障碍函数，参数 r> 0仍称为罚因子，我们取正的数列{ r _k }且 r _k →0，则求解不等式约束优化问题转化为求解系列无约束问题，即

这种从可行域内部逼近最优解的方法称为内罚函数法或SUMT内点法。

内罚函数法的算法如下：

已知不等式约束问题，且其可行域的内点集 D ₀ ≠∅，取控制误差 ε ＞0和罚因子的缩小系数0＜ c ＜1（比如可取 ε =10 ^-4 ， c =0.1）。

求解算法如算法2-5所示：

无约束优化问题的解法目前已有许多很有效的算法，所以在求解约束优化问题时，技术人员一般乐于采用罚函数法。内点法适合解仅含不等式的约束问题，且每次迭代的点都是可行点，但要求初始点为可行域的内点需耗费大量工作量，且不能处理等式约束。外点法能够解决一般约束优化问题，欲使无约束问题的解接近于原约束问题的解，应选取很大的 σ ，但为减轻求解无约束问题的困难，又应选取较小的 σ ，否则增广目标函数趋于病态。这些是罚函数法的固有弱点，限制其应用。

3.乘子法

罚函数法虽然易于操作，但是也存在缺点，比如由罚因子 σ _k →∞（或 r _k →0）引起的增广目标函数病态性质。那么能否克服这个缺点呢？回答是肯定的。将拉格朗日函数与外罚函数结合起来，函数称为增广拉格朗日函数，通过求解增广拉格朗日函数的系列无约束问题的解来获得原约束问题的解，可以克服上述缺点，这就是下面要介绍的乘子法。

一般性约束问题（P1）的乘子法：

对一般约束优化问题（P1）：

有增广拉格朗日函数为

乘子的修正公式为：

令，则终止准则为 ψ _k ≤ ε 。

据此，Rockafellar在PH算法的基础上提出了一般约束问题的乘子——PHR算法，如算法2-6所示：

（三）可行方向法

可行方向法是一类直接求解约束优化问题的重要方法，这类方法的基本思想为：从给定的一个可行点 x _k 出发，在可行域内沿一个可行下降方向 p _k 进行搜索，求出使目标函数值下降的新可行点 x _k ₊₁ = x _k + α _k p _k ，如果 x _k ₊₁ 仍不是问题的最优解，则可重复上述步骤，直到得到最优解为止。选择可行方向 p _k 的策略不同，则形成不同的方法，此处不做过多介绍。

（四）投影梯度法

投影梯度法就是利用投影矩阵来产生可行下降方向的方法。它是从一个基本可行解开始，由约束条件确定出凸约束集边界上梯度的投影，以便求出下次的搜索方向和步长，每次搜索后都要进行检验，直到满足精度要求为止。

定义2-10 设 n 阶方阵 p 满足 p = p ^T 且 pp = p ，则称 p 为投影矩阵。

投影梯度法的算法如算法2-7所示：

（五）简约梯度法——RG法

简约梯度法的基本思想是利用线性约束条件，将问题的某些变量用一组独立变量表示，来降低问题的维数，利用简约梯度构造下降可行方向进行线性搜索，逐步逼近问题的最优解，如算法2-8所示：

第三节
统计基础

一、概率与统计

概率论与数理统计是数学中紧密联系的两个学科，数理统计是以概率论为基础的具有广泛应用性的一个应用数学分支。数理统计学研究怎样去有效地收集、整理和分析带有随机性的数据，以对所考察的问题做出推断或预测，直至为采取一定的决策和行动提供依据和建议。

（一）总体与个体

在数理统计学中，将研究对象的全体称为总体（Population），有时也称为母体，而将构成总体的每一个元素称为个体（Individual）。总是将总体和随机变量等同起来，总体的分布及数字特征，即指表示总体的随机变量的分布和数字特征，对总体的研究也就归结为对表示总体的随机变量的研究。

在有些问题中，要观测和研究对象的两个甚至更多个指标，此时可用多维随机向量及其联合分布来描述总体，这种总体为多维总体。例如要研究的是电容器的寿命和工作温度，这两个数量指标分别用 X ， Y 来表示，可以把这两个指标所构成的二维随机向量( X , Y )可能取值的全体看作一个总体，简称为二维总体。这个二维随机向量( X , Y )在总体上有一个联合分布函数 F ( x , y )，则称这一总体为具有分布函数 F ( x , y )的总体。

总体中个体的总数有限称为有限总体（Finite Population），否则，称为无限总体（Infinite Population）。

（二）样本

在统计推断过程中，我们往往不是对所有个体逐一进行观测或检验，而是从总体中抽取一部分个体，测定这一部分个体的有关指标值，以获得关于总体的信息，实现对总体的推断，这一抽取过程移为抽样（Sampling），并且如果每一个个体都是从总体中被随机抽取出来，则称这种抽样为随机抽样（Stochastic Sampling）。常见的随机抽样有两种：有放回的和不放回的。我们把有放回的抽样称为简单随机抽样。所谓有放回的抽样主要是对有限总体而言，对于无限总体则可以采取不放回的抽样。在实际问题中，只要总体中包含个体的总数 N 远远大于抽取部分的个体数 n （例如 N/n ≥10），即可采取不放回抽样，并视不放回抽样为简单随机抽样。

为了了解总体 X 的分布规律和某些特征，从总体 X 中随机抽取 n 个个体 X ₁ , X ₂ ,…, X _n ，记为( X ₁ , X ₂ ,…, X _n )或记为 X ₁ , X ₂ ,…, X _n 。并称其为来自总体 X 的容量为 n 的样本中的个体，称为样品（Sample），由于每个 X _i 都是从总体 X 中随机抽取的，它的取值就是在总体 X 的可能取值范围内随机取的，自然每个 X _i 也是随机变量，从而将样本( X ₁ , X ₂ ,…, X _n )的一次抽样观测后得到的 n 个数据( x ₁ , x ₂ ,…, x _n )，称为样本( X ₁ , X ₂ ,…, X _n )的一个观测值（Observed Value），简称样本值（Sample Value），也可记为 x ₁ , x ₂ ,…, x _n 。样本( X ₁ , X ₂ ,…, X _n )所有可能取值的全体称为样本空间（Sample Space），记为 Ω 。样本观测值( x ₁ , x ₂ ,…, x _n )则是 Ω 中的一个点，称为样本点（Sample Point）。

如果我们要研究总体中个体的两个指标，则所抽取的 n 个个体的指标( X ₁ , Y ₁ ),( X ₂ , Y ₂ ),…,( X _n , Y _n )构成一个容量为 n 的样本。由此可见，二维总体的容量为 n 的样本由2 n 个随机变量构成，它的一个观测值( x ₁ , y ₁ , x ₂ , y ₂ ,…, x _n , y _n )是2 n 维空间中的一个样本点。类似地， k 维总体容量为 n 的样本是由 k × n 个随机变量构成的，它的一个观测值由 k × n 个数组成，是 k × n 维空间中的一个样本点。

若总体 X 的分布函数为 F ( x )，则( X ₁ , X ₂ ,…, X _n )的联合分布函数为；如果总体 X 的概率密度为 f ( x )，则样本( X ₁ , X ₂ ,…, X _n )的联合概率密度为。

（三）统计量与样本数字特征

在获得样本之后，我们需要对样本进行统计分析，也就是对样本进行加工、整理，从中提取有用信息。设( X ₁ , X ₂ ,…, X _n )为总体 X 的一个样本，如果样本的实值函数 g ( X ₁ , X ₂ ,…, X _n )中不包含任何未知参数，则称 g ( X ₁ , X ₂ ,…, X _n )为统计量（Statistic）。统计量是用来对总体分布参数做估计或检验的，因此它应该包含样本中有关参数的尽可能多的信息，在统计学中，根据不同的目的构造了许多不同的统计量。下面介绍几种常用的统计量。

设( X ₁ , X ₂ ,…, X _n )是来自总体 X 的随机样本，称统计量

为样本均值（Sample Mean），称统计量

为样本方差（Sample Variance），称统计量

为样本标准差（Sample Standard Deviation），称统计量

为样本二阶中心矩（Second-order Sample Central Moment），称统计量

为样本 k 阶原点矩（Sample Moment of Order k ），称统计量

为样本 k 阶中心矩（Sample Central Moment of Order k ）。

如果样本观测值为( x ₁ , x ₂ ,…, x _n )，则上述各个统计量的观测值分别为

前面介绍的几种常用统计量都是涉及一个总体，对于两个总体，我们需要考虑相关性，下面给出样本相关系数的定义。

设( X ₁ , X ₂ ,…, X _n )和( Y ₁ , Y ₂ ,…, Y _n )分别是来自总体 X 和 Y 的样本，则称统计量

为样本相关系数（Sample Correlation Coefficient）（皮尔逊相关系数）。

样本相关系数的取值范围为[-1，1]。| γ |值越大，两总体之间的线性相关程度越高；| γ |值越接近0，变量之间的线性相关程度越低。 γ >0时，称两总体正相关； γ <0时，称两总体负相关； γ =0时，称两总体不相关。

（四）抽样分布

如果总体的分布为正态分布，则称该总体为正态总体。统计量是对样本进行加工后得到的随机变量，它将被用来对总体的分布参数做估计或检验，为此，我们需要求出统计量的分布。统计量的分布被称为抽样分布（Sample Distribution）。能够精确求出抽样分布且这个分布具有较简单表达式的情形并不多见，然而，对于正态总体，我们可以求出一些重要统计量的精确抽样分布，这些分布为正态总体参数的估计和检验提供了理论依据。本节将要介绍的是在数理统计学中占有重要地位的三大抽样分布： χ ² 分布、 t 分布和 F 分布。

（1） χ ² 分布。

设 X ₁ , X ₂ ,…, X _n 为来自正态总体 N (0,1)的一个样本，称统计量

服从自由度为 n 的 χ ² 分布，记为 χ ² ~ χ ² ( n )。

可以证明 χ ² ( n )分布的概率密度为

式中，，称为Γ函数。

对于给定的 α (0< α <1)，如果存在，使得

则称为 χ ² 分布的上 α 分位点。下面给出 χ ² 分布的一些主要性质。

设 χ ² ~ χ ² ( n )，则

由于 X ₁ , X ₂ ,…, X _n 相互独立，所以也相互独立，于是

设 X ₁ ~ χ ² ( n ₁ ), X ₂ ~ χ ² ( n ₂ )，且 X ₁ 和 X ₂ 相互独立，则

这个性质称为 χ ² 分布的可加性。

（2） t 分布。

设 X ~ N (0,1), Y ~ χ ² ( n )，并且 X 与 Y 相互独立，则称随机变量

服从自由度为 n 的 t 分布，记为 t ~ t ( n )。

t 分布又称学生分布。这种分布是由戈塞（Gosset，1876—1937）首先发现的，他在1908年以学生（Student）作为笔名发表了有关该部分的论文。可以证明， t 分布的概率密度函数为

显然， t 分布的概率密度函数为 f ( x )关于 x =0对称，并且

对于给定的 α (0< α <1)，如果存在 t _α ( n )，使得

则称 t _α ( n )为 t 分布的上 α 分位点。由 t 分布的上 α 分位点的定义及其密度函数 f ( x )图形的对称性易知

下面给出 t 分布的一些常用结论。

设 X ~ N ( μ , α ² )， Y/α ² ~ χ ² ( n )，并且 X 与 Y 相互独立，则可知

设 X ₁ , X ₂ ,…, X _n 是来自正态总体 N ( μ , α ² )的一个样本，则

设 X ₁ , X ₂ ,…, X _n _₁ 和 Y ₁ , Y ₂ ,…, Y _n _₂ 分别是来自正态总体 N ( μ ₁ , α ² )和 N ( μ ₂ , α ² )的样本，并且这两个样本相互独立，则

式中

注意，该结论只有在两个总体方差相等时才成立。对于两个总体方差不相等的情形，特别地，有下面的结论。

推论2-1 设 X ₁ , X ₂ ,…, X _n _₁ 和 Y ₁ , Y ₂ ,…, Y _n _₂ 是来自服从同一正态分布 N ( μ , σ ² )的总体的两个样本，它们相互独立，则

（3） F 分布。

设 X ~ χ ² ( m ), Y ~ χ ² ( n )，且 X 与 Y 相互独立，则称随机变量

服从自由度为( m , n )的 F 分布，记为 F ~ F ( m , n )，其中 m 称为第一自由度， n 称为第二自由度。

可以证明 F 分布的密度函数为

F 分布具有一个重要的性质：若 F ~ F ( m , n )，则

对于给定的 α (0< α <1)，如果存在 F _α ( m , n )，使得

则称 F _α ( m , n )为 F 分布的上 α 分位点。 F 分布的上 α 分位点具有重要的性质：

下面给出 F 分布的一些重要结论。

设和分别来自总体和的样本，并且这两个样本相互独立，记和分别为这两个样本的样本方差，则

推论2-2 在上述条件下，若两个正态总体的方差相同，即，则

二、描述性统计

收集统计数据之后，首先要对获取的数据进行系统化、条理化的整理，然后进行恰当的图形描述，以提取有用的信息。

（一）定量数据的图形描述

1.定量数据整理

对定量数据进行统计分组是数据整理中的主要内容。根据统计研究的目的和客观现象的内在特点，按某个标志（或几个标志）把被研究的总体划分为若干个不同性质的组，称为统计分组。

频数分布表反映数据整理的结果信息。将数据按其分组标志进行分组的过程，就是频数分布或频率分布形成的过程。表示各组单位的次数称为频数；各组次数与总次数之比为频率；频数分布则是观察值按其分组标志分配在各组内的次数，由分组标志序列和各组对应的分布次数两个要素构成。在对这些定量数据进行分组时，需要建立频数分布表，以便更有效地显示数据的特征和分布。

2.单变量定量数据的图形描述

将定量数据整理成频数分布形式后，已经可以初步看出数据的一些规律了。下面介绍最常用的图形表示方法：直方图、折线图、累积折线图、茎叶图、箱线图。

直方图是用来描述定量数据集最普遍的图形方法，它将频数分布表的信息以图形的方式表达出来。直方图是用矩形的高度和宽度来表示频数分布的图形。在直角坐标系中以横轴表示所分的组，纵轴表示频数或频率，因此直方图可分为频数直方图和相对频数直方图。

折线图也称频数多边形图，其作用与直方图相似。以直方图中各组标志值中点位置作为该组标志的代表值，然后用折线将各组频数连接起来，再把原来的直方图去掉，就形成了折线图。当组距很小并且组数很多时，所绘出的折线图就会越来越光滑，逐渐形成一条光滑的曲线，这种曲线即频数分布曲线，它反映了数据的分布规律。统计曲线在统计学中很重要，是描绘各种分布规律的有效方法。常见的频数分布曲线有正态分布曲线、偏态分布曲线、J形分布曲线和U形分布曲线等。

编制频数分布表时，常会根据实际需要计算每组数据的累积频数或频率，累积折线图正是用来描述累积频数信息的。

茎叶图将传统的统计分组与画直方图两步工作一次完成，既保留了数据的原始信息，又为准确计算均值等提供了方便和可能。通过茎叶图可以看出数据的分布形状及数据的离散状况，比如分布是否对称，数据是否集中，是否有极端值等。在茎叶图画好后，不仅可以一目了然地看出频数分布的形状，而且茎叶图中还保留了原始数据的信息。利用茎叶图进行分组还有一个好处，就是在连续数据的分组中，不会出现重复分组的可能性。

还可以用箱线图描述未分组的原始数据的分布特征。当只有一组数据时，可以绘制单个箱线图来描述。当有多组数据需要处理时，可绘制多个箱线图。从箱线图我们不仅可看出一组数据的分布特征，还可以进行多组数据分布特征之间的比较。

箱线图由一个长方形“箱子”和两条线段组成，其中长方形中部某处被一条线段隔开。因此，要绘制一个箱线图，需要确定五个点，从左向右依次为这一组数据的最小值、下四分位数、中位数、上四分位数、最大值。首先我们将这一组数据按大小进行排序，其中排序后处在中间位置的变量值称为中位数，如果数据有2 n +1个，则中位数恰好是第 n +1个数据；如果数据有2 n 个，则中位数为第 n 个数和第 n +1个数的均值。同理可得下四分位数和上四分位数。下四分位数是处在排序数据25%位置的值，上四分位数是处在排序数据75%位置的值。连接两个四分位数画出长方形“箱子”，再将两个极值点与箱子相连接。单个箱线图一般形式如图2-4所示。

图2-4 单个箱线图

3.多变量定量数据的图形描述

在实际应用中，只对一个变量进行数据分析往往是不能满足研究目的的，通常把多个变量放在一起来描述，并进行分析比较。

在我们的生活和工作中，有许多现象和原因之间呈规则性或不规则性的关联，因此我们往往需要同时处理多个变量的定量数据，以揭示它们之间的关系。在讨论两个变量的关系时，首先可以对其定义分类。当一个变量可以视为另一个变量的函数时，称为相关变量，通常也称为反应变量；当一个变量对另一个变量有影响时，称为独立变量或解释变量，通常它是可控的。散点图是描述两个数字变量之间关系的图形方法。在绘制散点图时，独立变量或解释变量应放置在 X 轴上，相关变量或反应变量应放置在 Y 轴上。

如果数据是在不同时点取得的，称为时间序列数据，这时还可以绘制线图和面积图。线图是在平面坐标系中用折线表示数量变化特征和规律的统计图，主要用于描述时间序列数据，以反映事物发展变化的趋势。对于多组数据，我们可以依据同样的方法来绘制箱线图，然后将各组数据的箱线图并列起来，以比较其分布特征。这里多组数据可以出自同一总体的不同组样本数据，或来自不同总体的不同组样本数据。

当研究的变量或指标只有两个时，可以用散点图等在平面直角坐标系中进行绘图；当有三个变量或指标时，也可以用三维的散点图来描述，但看起来不方便，而且散点图能表达的最高维度就只有三个，当指标或变量超过三个时，它就无能为力了。这时就需要使用多指标的图示方法，目前这类图示方法有雷达图、脸谱图、连接向量图和星座图等，其中雷达图最为常用。

（二）定性数据的图表描述

实际上在企业管理中很多问题和现象无法通过数值直接表示出来，因此人们经常使用定性数据来反映对应的定类或定序变量的值。下面我们介绍如何用图表对定类或定序变量的定性数据值进行整理和描述。

1.定性数据的整理

数据的整理是为下一步对数据的描述和分析打好基础。对于定量数据，一般通过对它们进行分组整理，然后做出相应的频数或频率分布表、直方图、折线图等来描述数据分布和特征，也可以利用茎叶图和箱线图等直接描述未分组数据。由于定性数据用来描述事物的分类，因此对调查收集的繁杂定性数据进行整理时，除了要将这些数据进行分类、列出所有类别之外，还要计算每一类别的频数、频率或比率，并将频数分布以表格的形式表示出来，作为对定性数据的整理结果，这个表格类似于定量数据整理中的频数分布表。

2.单变量定性数据的图形描述

定性数据的频数分布表可通过频数分布表和累积频数分布表来表示。如果以相应的图形来表示这些分布表，则会使我们对数据特征及分布有更直观和形象的了解。

条形图和饼图通过反映频数分布表的内容来描述定性数据（定类数据和定序数据），是使用最为广泛的两种图形方法，说明了落入每一个定性类别中的观察值有多少。累积频数分布图通过反映累积频数分布表的内容来描述定序数据。帕累托图的形式和累积频数分布图类似，但不像后者只在针对定序数据进行描述时才有意义，帕累托图能对所有定性数据（定类数据和定序数据）进行描述，以反映哪些类别对问题的研究更有价值。

当我们所寻求的关于定性变量的信息是落入每一类中的观察值数，或是落入每一类中的观察值数在观察值总数中所占的比率时，可以使用条形图（Bar Chart）来描述。条形图与直方图很像，只不过条形图的横轴表示的是各个分类，而直方图的横轴表示所分的组。条形图是用宽度相同的条形来表示数据变动的图形，它可以横排或竖排，竖排时也可称为柱形图。如果两个总体或两个样本的分类相同且问题可比，还可以绘制环形图。在表示各类定性数据的分布时，用条形图的高度或长度表示各类数据的频数或频率。绘制时，各类别放在纵轴即为条形图，放在横轴即为柱形图。

饼图（Pie Chart）也可称为圆形图，是以圆形以及圆内扇形的面积来描述数值大小的图形。饼图通常用来描述落在各个类中的测量值数分别在总数中所占的比率，对于研究结构性问题相当有用。在绘制饼图时，总体中各部分所占的比率用圆内的各个扇形面积描述，其中心角度按各扇形角度占360°的相应比例来确定。

根据累积频数或累积频率，可以绘制出累积频数或累积频率分布图。

当定类或定序变量的分类数目（即定性数据）较多时，用帕累托图（Pareto Chart）要比用条形图和饼图更能直观地显示信息。帕累托图以意大利经济学家维尔弗雷多·帕累托命名的，他认为20%的潜在因素是引起80%的问题所在。通过帕累托图，可以从众多的分类中，找到那些比较重要的分类。该图被广泛应用于过程分析和质量分析，它可以提供直接证据，表明首先应该改进哪些地方。

3.多变量定性数据的图形描述

在管理实践中，不同现象之间总有联系，不可能是独立的。因此，研究多个定性变量之间定性数据的图形表示，对进行深入的统计分析，如回归分析、聚类分析、因子分析等有重要的基础意义。

环形图（Circle Chart）能显示具有相同分类且问题可比的多个样本或总体中各类别所占的比例，从而有利于比较研究。但只有在类别值为定序数据时这种比较才有意义，因此环形图适用于对多个样本或总体中定序数据的描述和比较，如比较在不同时点上消费者对某公司产品的满意程度，或不同地域的消费者对某公司同一产品的满意程度等。

交叉表（Cross Table）是用来描述同时产生两个定性变量的数据的图形方法。交叉表的使用价值在于它可以使我们看到两个变量之间的关系。交叉表广泛应用于对两个变量之间关系的检测。实践中许多统计报告都包含了大量的交叉表。事实上，只要能用于描述定类或定序变量的图表，都同样适用于对数字变量的描述。因此交叉表同样可以用于描述两个变量都是数字变量或者一个是定类或定序变量，另一个是数字变量之间的关系。

多重条形图（Clustered Bar Chart）也是描述两个定类变量或定序变量间关系的主要图形方式。

（三）描述统计中的测度

为了对数据分布的形状和趋势进行更深入的分析和挖掘，得到更多有价值的信息，还需要使用有代表性的数量特征值来准确地描述统计数据的分布。描述统计中数据的测度，即数据分布的特征，对统计数据进行更深入的分析和描述，从而掌握数据分布的特征和规律。对于描述统计中数据的测度，主要可以分为三个方面：①数据分布的集中趋势，反映各数据向其中心值靠拢或聚焦的程度；②数据分布的离散程度，反映各数据远离其中心值的趋势；③数据分布的形状，即数据分布的偏态和峰度。

1.数据分布的集中趋势测度

集中趋势（Central Tendency）是指分布的定位，它是指一组数据向某一中心值靠拢的倾向，或表明一组统计数据所具有的一般水平。对集中趋势进行测度也就是寻找数据一般水平的代表值或中心值。对集中趋势的度量有数值平均数和位置平均数之分。本节主要讨论根据一组给定的数据确定其集中趋势的方法。

数值平均数又称均值（Mean），根据统计资料的数值计算而得到，在统计学中具有重要的作用和地位，是度量集中趋势最主要的指标之一。在以下关于平均数的论述中，平均的对象可理解为变量 x ，平均数可记为。

简单算术平均数是根据原始数据直接计算的平均值。一般地，设一组数据为 x ₁ , x ₂ ,…, x _n ，其简单算术平均数的一般计算公式可表达为

简单算术平均数的计算方法只适用于单位数较少的总体。在实际工作中，汇总和计算总体标志总量的资料常常是大量的，计算方法虽然简单，工作量却很大。所以，一般不是根据原始资料一一加总来计算简单算术平均数，而是根据经分组整理后编制的变量数列来计算加权算术平均数。加权算术平均数计算所依据的数据是经过一定整理的，即是根据一定规则分组的。

2.由数列计算加权算术平均数

由单项变量数列计算加权算术平均数，首先要将数据进行分组，即将 n 个数据按变量值( x _i )进行分组并统计在每组中各个变量取值出现的次数，或称为频数( f _i )。加权算术平均数的计算公式如下：

3.根据组距计算加权算术平均数

有的情况下，给定的数据较为分散，而且数据的取值种类较多，如果仍然采取按每个数据的取值不同来分组，往往工作量较大，且费时、费力。此时，选择适当的组距对数据进行分组，再求加权平均数往往就简单、容易许多。根据组距计算加权平均数的方法与上面所述的数列加权平均数方法基本相同，只须以各组的组中值来代替式（2-122）中相应的 x 值即可。

在统计分析中，有时出于资料的原因无法掌握总体单数（频数），只有每组的变量值和相应的标志总量。在这种情况下就不能直接运用算术平均方法来计算了，而需要以间接的形式，即用每组的标志总量除以该组的变量值推算出各组的单位数，才能计算出平均数，这就是调和平均的方法。

调和平均数（Harmonic Mean）是均值的另一种重要表示形式，由于它是根据变量值倒数计算的，所以也叫倒数平均数，一般用字母 H _m 表示。根据所给资料情况的不同，调和平均数可分为简单调和平均数和加权调和平均数两种。简单调和平均数用公式表达即为

事实上，简单调和平均数是权数均相等条件下的加权调和平均数的特例。加权调和平均数用公式表示则为

式中， m _i 为加权调和平均数的权数。

由此可以看出，当权重 m _i 相等时，加权调和平均数转换为简单调和平均数。

几何平均数（Geometric Mean）是 n 个变量值连乘积的 n 次方根，常用字母 G 表示。它是平均指标的另一种计算形式。几何平均数是计算平均比率的一种方法。根据掌握的数据资料不同，几何平均数可分为简单几何平均数和加权几何平均数两种。

假设有 n 个变量值 x ₁ , x ₂ ,…, x _n ，则简单几何平均数的基本计算公式为

当掌握的数据资料为分组资料，且各个变量值出现的次数不相同时，应用加权方法计算几何平均数。加权几何平均数的公式为

数值平均数根据所提供资料的具体数值计算而得到，与通常观念中的平均含义比较接近，但它有比较明显的缺陷。受极端值的影响，不能真实地反映该组资料的整体集中趋势。在这种情况下，一般可以考虑用位置平均数取代算术平均数来对数据的集中趋势进行描述。常用的位置平均数有：中位数、众数和分位数。

中位数（Median）是度量数据集中趋势的另一重要测度，它是一组数据按数值的大小从小到大排序后，处于中点位置上的变量值。通常用 M _e 表示。定义表明，中位数就是将某变量的全部数据均等地分为两半的那个变量值。其中，一半数值小于中位数，另一半数值大于中位数。中位数是一个位置代表值，因此它不受极端变量值的影响。

众数（Mode）是一组数据中出现次数最多的那个变量值，通常用 M _o 表示。如果在一个总体中，各变量值均不同，或各个变量值出现的次数均相同，则没有众数。如果在一个总体中，有两个标志值出现的次数都最多，称为双众数。只有在总体单位比较多、变量值又有明显集中趋势的条件下确定的众数，才能代表总体的一般水平；在总体单位较少，或虽多但无明显集中趋势的条件下，众数的确定是没有意义的。

中位数从中间点将全部数据等分为两部分。与中位数类似的还有四分位数、八分位数、十分位数和百分位数等。它们分别是用3个点、7个点、9个点和99个点将数据四等分、八等分、十等分和一百等分后各分位点上的值。

算术平均数和中位数都是描述频数分布集中趋势比较常用的方法，从前面关于它们的特征与性质的讨论中可以知道，这些方法各有各的优缺点。就同样的资料，究竟是采用算术平均数，还是采用中位数来反映集中趋势，需要结合频数分布特征的不同来确定。

（四）数据分布的离散趋势测度

对于任意一组数据而言，根据其实际背景和已知条件，可以得到反映该组数据一般水平的平均数（集中趋势）。变量数列中各变量值之间存在差异，平均数将变量数列中各变量值的差异抽象化，各个变量值共同的代表，反映的是这些变量值的一般水平，体现总体的集中趋势。变量离散程度的度量则将变量值的差异揭示出来，反映总体各变量值对其平均数这个中心的离中趋势。离散指标与平均指标分别从不同的侧面反映总体的数量特征。只有把平均指标与离散指标结合起来运用，才能更深刻地揭示所研究现象的本质。

根据不同的度量方法，离散指标可分为极差、分位差、平均差、方差与标准差、标准差系数，其中标准差的应用最广泛。下面分别介绍它们的含义、特点及计算方法。

极差（Range）也叫全距，常用 R 表示，它是一组数据的最大值max( x )与最小值min( x )之差，即

极差表明数列中各变量值变动的范围。 R 越大，表明数列中变量值变动的范围越大，即数列中各变量值差异越大；反之， R 越小，表明数列中变量值的变动范围越小，即数列中各变量值差异越小。

极差计算简单，易于理解，是描述数据离散程度最简单的测度值。但它只是说明两个极端变量值的差异范围，其值的大小只受极端值的影响，因而它不能反映各单位变量值的变异程度。

四分位差（Interquartile Range）是度量离散趋势的另一种方法，也称为内距或四分位距，是第三四分位数（上四分位数 Q ₃ ）与第一四分位数（下四分位数 Q ₁ ）的差，也就是75%百分位数与25%百分位数间的差。它代表数据分布中间50%的距离。常用IQ _R 表示，其计算公式为

四分位差不受极值的影响，并且由于中位数处于数据的中间位置，因此四分位差的大小在一定程度上也说明了中位数对一组数据的代表程度。

平均差（Mean Deviation）是变量数列中各个变量值与算术平均数的绝对离差的平均数，常用 M _D 表示。各变量值与平均数离差的绝对值越大，平均差也越大，说明变量值变动越大，数列离散趋势越大；反之亦然。根据所给资料的形式不同，对平均差的计算可以划分为简单平均差和加权式平均差两种形式。

对未经分组的数据资料，采用简单平均差，公式如下：

根据分组整理的数据计算平均差，应采用加权式平均差，公式如下：

在可比的情况下，一般平均差的数值越大，则其平均数的代表性越小，说明该组变量值分布越分散；反之，平均差的数值越小，则其平均数的代表性越大，说明该组变量值分布越集中。

平均差克服了极差、四分位差的不足，较综合、准确地反映了各标志值的离散程度，但由于它以绝对离差的形式表现，不利于代数运算，所以在应用上有较大的局限性。

方差（Variance）是变量数列中各变量值与其算术平均数差的平方的算术平均数，常用 s ² 表示。标准差（Standard Deviation）是方差的平方根，故又称均方差或均方差根的算术平均数，常用字母 s 表示，其计量单位与平均数的计量单位相同。标准差和方差不仅反映了各个变量的差异和频数分布，而且利用算术平均数中的差异和频数分布为最小的数学性质，消除了离差的正、负号，避免了平均差计算中取绝对值的问题，可以直接进行代数运算，增加了指标的灵敏度和准确性。标准差和方差是测度离散趋势常用的指标。

根据给定资料的不同，对方差和标准差的计算也可以分为两种形式。

对未经分组的数据资料，采用简单式，公式如下。

样本方差的计算公式：

标准差的计算公式：

根据分组整理的数据计算标准差，应采用加权式，公式如下。

样本方差：

样本标准差：

三、推断性统计

（一）参数估计

由于参数能够提供刻画总体性质的重要信息，当参数未知时，我们就要利用样本对参数进行估计，进而获得总体的信息。参数估计是推断统计的重要内容之一，是在抽样及抽样分布的基础上，根据样本统计量来推断所关心的总体参数，从而达到认识总体的未知参数的目的。

点估计

在参数估计中，用来估计总体参数的样本统计量称为待估计参数的估计量，样本统计量的观察值为待估计参数的估计值。点估计就是用样本统计量的某个取值直接作为总体参数的估计值。如果已知总体 X 的分布形式，但是其中一个或多个参数未知，这种借助于总体 X 的一个样本来估计其未知参数的数值，就被称为参数的点估计。

点估计的方法又包括矩估计法、极大似然估计法、顺序统计量法、最小二乘法以及贝叶斯方法等。在这里只介绍矩估计法和极大似然估计法这两种常用的点估计方法。

（1）矩估计法。

借助样本矩去估计总体的矩，从而得到总体相应的未知参数的估计值，这种估计方法被称为矩估计法。比如，用样本的一阶原点矩来估计总体的均值 μ ，用样本的二阶中心矩来估计总体的方差 σ ² 。

令 θ ₁ , θ ₂ ,…, θ _k 为总体 X 的 k 个未知参数，利用从该总体中抽取的样本 X ₁ , X ₂ ,…, X _n 构造统计量（样本矩），令总体的均值等于样本的一阶原点矩，总体的方差等于样本的二阶中心矩，从而得到相应的方程组，用该方程组的解分别作为 θ ₁ , θ ₂ ,…, θ _k 的估计量，称为矩估计量。

矩估计是由大数定律得来的，即样本经验分布函数依概率收敛于总体分布函数，是一种替换的思想，简单易行，但是它最大的缺点是矩估计量有可能不唯一，如泊松分布中期望和方差均等于 λ ，因此 λ 的矩估计量可以取或。矩估计也没有充分利用总体分布的信息。

（2）极大似然估计法。

令 X ₁ , X ₂ ,…, X _n 为从某一总体中抽出的一个随机样本， x ₁ , x ₂ ,…, x _n 是对应的样本值， θ 为总体的未知参数。当总体的分布函数已知时，我们可以得到事件——样本 X ₁ , X ₂ ,…, X _n 取到样本值 x ₁ , x ₂ ,…, x _n 的概率，也即样本的联合密度函数为

把式（2-135）称为参数 θ 的似然函数。极大似然估计法的基本思想是：在一切可能的取值中选取使得似然函数 L ( θ )最大化的作为未知参数 θ 的估计值，即得到参数的估计值使得

被称为 θ 的极大似然估计值，被称为 θ 的极大似然估计量。如果 L ( θ )是可微的，可从对似然函数求微分得到的式（2-137）解得。

一般地，利用极大似然估计法进行参数的点估计，步骤如下：①由总体概率密度 f ( x , θ )写出样本的似然函数；②建立似然方程；③求解似然方程。

令和是总体未知参数 θ 的两个无偏估计量，所谓有效性是指在样本容量 n 相同的情况下，对应的观测值较对应的观测值更为集中于 θ 的真值附近，即

则称是较有效的估计量。

参数点估计的无偏性与有效性都是在样本容量 n 固定的前提下提出的，所谓一致性是指当样本容量增大，即当 n 趋近于无穷大时候，要求依概率收敛于 θ ，即

则称为 θ 的一致估计量。也就是说，当样本容量 n 越来越大时，估计量接近参数 θ 的真值的概率也越来越大。

不过，估计量的一致性只有当样本容量 n 相当大时才能够显示出来，这在实际中往往不会出现，因此在实际应用中我们往往只使用无偏性和有效性这两个评价准则。

（二）区间估计

区间估计（Interval Estimate）是在点估计的基础上根据给定的置信度估计总体参数取值范围的方法。

我们以总体均值的区间估计为例说明区间估计的原理。

由样本均值的抽样分布可知，在重复抽样或无限总体抽样的条件下，样本均值的数学期望等于总体均值，即 = μ ，样本均值的标准差为，由此可知，样本均值落在总体均值 μ 的两侧各为一个抽样标准差范围内的概率为0.6826，落在两个抽样标准差范围内的概率为0.9545，落在三个抽样标准差范围内的概率为0.9973等。

理论上，可以求出样本均值落在总体均值 μ 的两侧任何一个抽样标准差范围内的概率。但这与实际应用时的情况恰好相反。实际估计中，是已知的，而总体均值 μ 是未知的，也正是我们要估计的。由于 μ 与的距离是对称的，如果某个样本的平均值落在 μ 的两个标准差范围之内，那么 μ 也被包括在以为中心左右两个标准差的范围之内。因此约有95%的样本均值会落在 μ 的两个标准差的范围内。

在区间估计中，由样本统计量所构成的总体参数的估计区间称为置信区间（Confidence Interval），区间的最小值称为置信下限，最大值称为置信上限。一般将构造置信区间的步骤重复很多次，置信区间包含总体参数真值的次数所占的比例称为置信水平（Confidence Level）。比如，抽取10个样本，根据每个样本构造一个置信区间，那么，如果这100个样本构造的总体参数的10个置信区间中，有95%的区间包含了总体参数的真值，而5%没有包含，那么置信水平就是95%。

在实际估计中，通常根据研究问题的具体条件采用不同的处理方法。本节主要讨论：方差已知条件下单一总体均值的区间估计、方差未知条件下单一总体均值的区间估计以及两个正态总体均值之差的区间估计。

1.单一总体均值的区间估计（方差已知或大样本）

当总体服从正态分布且总体方差 σ ² 已知时，样本均值的抽样分布均为正态分布，其数学期望为总体均值 μ ，方差为。在重复抽样的情况下，总体均值 μ 在（1 -α ）置信水平下的置信区间为

式中，称为置信下限，称为置信上限； α 是事先确定的一个概率值，它是总体均值不包括在置信区间的概率； z _α/ ₂ 为标准正态分布上侧面积为 α /2时的 z 值；为估计总体均值的边际误差，也称为估计误差。

依据中心极限定理可知，只要进行大样本抽样( n >30)，无论总体是否服从正态分布，样本均值的抽样分布均为正态分布。当总体方差 σ ² 未知时，只要在大样本条件下，则可以用样本方差 s ² 代替总体方差 σ ² ，这时无论总体是否服从正态分布，总体均值 μ 在（1 -α ）称为置信水平下的置信区间为

2.单一总体均值的区间估计（小样本且方差未知）

在实际统计应用中，由于受到客观条件的限制，利用小样本对总体均值进行估计的情况较为常见。如果总体服从正态分布，无论样本量如何，样本均值的抽样分布均服从正态分布。这时，如果总体方差 σ ² 已知，即使是在小样本的情况下，也可以按式（2-139）建立总体均值的置信区间；如果总体方差 σ ² 未知，而且是在小样本的情况下，则需要用样本方差 s ² 代替 σ ² ，这时应采用 t 分布来建立总体均值 μ 在（1 -α ）置信水平下的置信区间

式中， t _α/ ₂ 是自由度为( n -1)时， t 分布中上侧面积为 α /2的 t 值。

3.两个总体均值之差的区间估计

在实际应用中，经常需要对两个不同总体的均值进行比较。例如，比较两种产品的平均寿命的差异、比较两种药品的平均疗效的差异等。

（1）独立样本。

如果两个样本是从两个总体中独立地抽取的，即一个样本中的元素与另一个样本中的元素相互独立，则称为独立样本（Independent Sample）。

如果两个总体都为正态分布，或者两个总体不服从正态分布但两个样本容量都较大 n ₁ ≥30且 n ₂ ≥30）时，根据抽样分布的内容可知，两个样本均值之差的抽样分布服从期望为( μ ₁ -μ ₂ )、方差为的正态分布。

在两个总体的方差和都已知的情况下，两个总体均值之差( μ ₁ -μ ₂ )在（1 -α ）置信水平下的置信区间为

在两个总体的方差和都未知的情况下，可用两个样本的方差和来替代。这时两个总体均值之差( μ ₁ -μ ₂ )在（1 -α ）置信水平下的置信区间为

在两个样本均为小样本的情况下，为了估计两个总体均值之差，需要做出如下假设：两个总体都服从正态分布；两个随机样本独立地分别抽取自两个总体。此时，无论样本容量大小，两个样本均值之差均服从正态分布。具体情况包括：

当和已知时，可以采用式（2-141）建立两个总体均值之差的置信区间。

当两个总体的方差和未知但时，需要用两个样本的方差和来估计，需要计算总体方差的合并估计量，计算公式为

这时，两个样本均值之差经标准化后服从自由度为 n ₁ + n ₂ -2的 t 分布，两个总体均值之差( μ ₁ -μ ₂ )在（1 -α ）置信水平下的置信区间为

当两个总体的方差和未知且时，如果两个总体都服从正态分布且两个样本的容量相等，即 n ₁ = n ₂ ，则可以采用下列公式建立两个总体均值之差在（1 -α ）置信水平下的置信区间。

当两个总体的方差和未知且时，如果两个样本的容量也不相等，即 n ₁ ≠ n ₂ ，两个样本均值之差经标准化后不再服从自由度为( n ₁ + n ₂ -2)的 t 分布，而是近似服从自由度为的 t 分布，则两个总体均值之差在（1 -α ）置信水平下的置信区间为

（2）配对样本。

以上对两个总体均值之差进行置信区间估计的讨论中，我们假设样本是独立的。但是在一些情况下需要采用存在相依关系的配对样本进行分析。配对样本（Paired Sample）即一个样本中的数据与另一个样本中的数据相对应。使用配对样本进行估计时，在大样本条件下，两个总体均值之差( μ ₁ -μ ₂ )在（1 -α ）置信水平下的置信区间为

式中，为各差值的均值； σ _d 为各差值的标准差，当总体标准差未知时，可以用样本差值的标准差 s _d 替代。

在小样本条件下，假定两个总体均服从正态分布，差值也服从正态分布。则两个总体均值之差( μ ₁ -μ ₂ )在（1 -α ）置信水平下的置信区间为

4.总体比例的区间估计

在统计推断中，常常需要推断总体中具有某种特征的数量所占的比例，这种随机变量与二项分布有密切关系。当样本容量很大时，通常要求 np ≥5和 n (1 -p )≥5，样本比例 p 的抽样分布可以用正态分布近似。 p 的数学期望等于总体比例 π ，即 E ( p )= π ， p 的方差为。样本比例经标准化后的随机变量服从标准正态分布，即

则总体比例 π 在1 -α 置信水平下的置信区间为

在实际应用中，有时需要利用样本比例 p 来估计总体比例 π 。在大样本的情况下，可以用样本比例 p 来代替 π ，这时总体比例 π 在（1 -α ）置信水平下的置信区间为

当两个样本容量足够大时，从两个二项总体中抽出两个独立的样本，则两个样本比例之差的抽样分布服从正态分布；两个样本的比例之差经标准化后则服从标准正态分布。即

在对总体参数估计时，两个总体比例 π ₁ 和 π ₂ 通常是未知的，可以用样本比例 p ₁ 和 p ₂ 来代替。这时，两个总体比例之差( π ₁ -π ₂ )在（1 -α ）置信水平下的置信区间为

5.总体方差的区间估计

在统计应用中，有时不仅需要估计正态总体的均值、比例，还需要估计正态总体的方差。例如，在房地产价格的区间估计中，方差可以反映房价的稳定性，方差大，说明房价的波动大；方差小，说明房价比较稳定。

由抽样分布的知识，，因此我们用 χ ² 分布构造总体方差的置信区间。

建立总体方差 σ ² 的置信区间，就是要找到一个 χ ² 值，满足：； χ ² ( n -1)，于是得到。

根据上式得到总体方差 σ ² 在（1 -α ）置信水平下的置信区间为

6.样本容量的确定

样本容量是指抽取的样本中包含的单位数目，通常用 n 表示。在进行参数估计之前，首先应该确定一个适当的样本容量。在进行抽样调查时，如果样本容量很小，抽样误差就会较大，抽样推断就会失去意义；如果样本容量很大，就会增加调查的费用和工作量。因此，样本容量的确定是抽样设计中的一个重要环节。样本容量的确定方法，通常是根据所研究的具体问题，首先确定估计的置信度和允许的误差范围，然后结合经验值或抽样数据估计总体的方差，在通过抽样允许的误差范围计算公式推算所需的样本容量。

根据上文所述总体均值区间估计的知识，假定 E 是在一定置信水平下允许的误差范围为。

由此可以推导出确定样本容量的计算公式如下：

z _α/ ₂ 的值可以直接由置信水平确定。在实际应用中，总体方差 σ ² 通常是未知的，需要对 σ ² 进行估计，一般采用与以前相同或类似的样本的方差 s ² 来代替。从式（2-155）可以看出，在其他条件不变的情况下，置信水平越大、总体方差越大、允许的误差范围越小，所需的样本容量 n 就越大。

与估计总体均值时样本容量的确定方法类似，根据比例的允许误差计算式 E = z _α/ ₂ ，可以推导出确定样本容量的计算公式如下：

式中，允许误差 E 的值是事先确定的； z _α/ ₂ 的值可以直接由置信水平确定。

在实际应用中，总体比例 π 通常未知（总体方差 σ ² = π （1 -π ）），可以采用与以前相同或类似的样本的比例 π 来代替，通常取其最大值 π =0.5来推断。

在估计两个总体均值之差时，样本容量的确定方法与上述类似。在给定允许误差 E 和置信水平（1 -α ）的条件下，估计两个总体均值之差所需的样本容量为

式中， n ₁ 和 n ₂ 为来自两个总体的样本容量；和为两个总体的方差。

式中， n ₁ 和 n ₂ 为来自两个总体的样本容量； π ₁ 和 π ₂ 为两个总体的比例。

（三）假设检验

假设检验（Hypothesis Testing）和参数估计（Parameter Estimation）是统计推断的两个组成部分，它们都是利用样本对总体进行某种推断，只是推断的方向不同。参数估计是用样本统计量估计总体参数的方法，总体参数 μ 在估计之前是未知的。而在假设检验中，则是先对 μ 的值提出一个假设，然后利用样本信息去检验这个假设是否成立。

本节主要介绍如何利用样本信息，对假设成立与否做出判断的原理和方法。

假设检验也称为显著性检验，是事先做出一个关于总体参数的假设，然后利用样本信息来判断原假设是否合理，即判断样本信息与原假设是否有显著差异，从而决定应接受或否定原假设的统计推断方法。

对总体做出的统计假设进行检验的方法依据是概率论中的“在一次试验中，小概率事件几乎不发生”的原理，即概率很小的事件在一次试验中可以把它看成不可能发生的。

假设检验实际上是建立在“在一次试验中，小概率事件几乎不发生”原理之上的反证法，其基本思想是：先根据问题的题意做出原假设H ₀ ，然后在原假设H ₀ 成立的前提下，寻找与问题有关的小概率事件 A ，并进行一次试验，观察试验结果，看事件 A 是否发生？如果发生了，与“在一次试验中，小概率事件几乎不发生”原理矛盾，从而推翻原假设H ₀ ，否则不能拒绝原假设H ₀ 。

一个完整的假设检验过程，通常包括以下五个步骤。

第一步，根据问题要求提出原假设（Null Hypothesis）H ₀ 和备择假设（Alternative Hypo-thesis）H ₁ 。

统计学对每个假设检验问题，一般同时提出两个相反的假设，即原假设和备择假设。通常将研究者想收集数据予以反对的假设选作原假设，或称零假设，用H ₀ 表示。与原假设对立的假设是备择假设，通常将研究者想收集数据予以支持的假设选为备择假设，用H ₁ 表示。

在假设检验中，有些情况下，我们关心的假设问题带有方向性。在实际工作中，试验新工艺而提高产品质量、降低成本、提高生产率，我们往往更关心产品的某个性能指标与原先相比是否有显著的提高或降低，这就给我们提出了所谓的单侧假设检验题，这种具有方向性的假设检验即称为单侧检验。根据实际工作的关注点不同，单侧假设检验问题可以有不同的方向。一般地，称对假设H ₀ : μ ≥ μ ₀ （为假设的参数的具体数值）的检验为左侧检验；称对假设H ₀ : μ ≤ μ ₀ 的检验为右侧检验。

第二步，确定适当的检验统计量及相应的抽样分布。

在假设检验中，如同在参数估计中一样，需要借助样本统计量进行统计推断。用于假设检验问题的统计量称为检验统计量，不同的假设检验问题需要选择不同的检验统计量，在具体问题中，选择什么统计量，需要考虑的因素有：总体方差已知还是未知、用于进行检验的样本是大样本还是小样本等。

第三步，选取显著性水平 α 确定原假设H ₀ 的接受域和拒绝域。

假设检验是围绕对原假设内容的审定而展开的，当原假设正确我们接受它，或原假设错误我们拒绝它时，表明做出了正确的决定。但是，由于假设检验是根据样本提供的信息进行推断的，也就有了犯错误的可能。显著性水平（Significant Level）表示原假设H ₀ 为真时拒绝H ₀ 的概率，即拒绝原假设所冒的风险，用 α 表示。这个概率是由人们确定的，通常取 α =0.05和 α =0.01，这表明，当做出拒绝原假设的决定时，其犯错误的概率为5%或1%。

在实际应用中，一般是先给定了显著性水平 α ，这样就可以由有关的概率分布表查到临界值（Critical Value） z _α （或 z _α/ ₂ ），从而确定H ₀ 的接受域和拒绝域。对于不同形式的假设，H ₀ 的接受域和拒绝域也有所不同。

第四步，计算检验统计量的值。

在提出原假设H ₀ 和备择假设H ₁ ，确定了检验统计量，给定了显著性水平 α 以后，接下来就要根据样本数据计算检验统计量的值。

第五步，做出统计决策。

根据样本信息计算出统计量 Z 的具体值，将它与临界值 z _α 相比较，就可以做出接受原假设或拒绝原假设的统计决策。

对于原假设提出的命题，我们需要作出接受或者拒绝H ₀ 的判断。这种判断是基于样本信息而进行的。由于样本的随机性，假设检验有可能出现两类错误：第一类错误是原假设H ₀ 为真，但是由于样本的随机性使样本统计量落入了拒绝域，由此做出拒绝原假设的判断。这类错误称为第一类错误也称为弃真错误。犯这类错误的概率用 α 表示，所以也称为 α 错误( α Error)。它实质上就是前面提到的显著性水平 α ，即 P （拒绝为真）= α 。第二类错误是原假设H ₀ 不为真，但是由于样本的随机性使样本统计量落入了接受域，由此做出不能拒绝原假设的判断，也称为取伪错误。犯这类错误的概率用 β 表示，即 P （接受不为真）= β ，所以也称为 β 错误( β Error)。

假设检验中，原假设H ₀ 可能为真也可能不真，我们的判断有拒绝和不拒绝两种。因此，检验结果共有四种可能的情况：①原假设H ₀ 为真，我们却将其拒绝，犯这种错误的概率用 α 表示；②原假设H ₀ 为真，我们没有拒绝H ₀ ，则表明做出了正确判断，其概率为（1 -α ）；③原假设H ₀ 不为真，我们却没有拒绝H ₀ ，犯这种错误的概率用 β 表示；④原假设H ₀ 不为真，我们做出拒绝H ₀ 的正确判断，其概率为（1 -β ）。

上述五个步骤中，选择合适的假设是前提，而构造合适的统计量是关键。值得注意的是，作假设检验用的统计量与参数估计用的随机变量在形式上是一致的，每一个区间估计法都对应一个假设检验法。

第四节
应用案例

近年来，随着数字经济的发展，互联网打车平台逐渐进入人们的生活。高频、海量的网约车数据也随之产生，记录着人们的出行信息，对研究区域经济能力有着重要意义。为此，中国社会科学院信息化研究中心对全国297个城市各类生产生活场景的网约车出行数据进行统计分析与深入挖掘，基于生产性、消费性、服务性三类出行场景设计了一个三级指标的经济活跃度评价体系，构建了一个用数字出行反映中国经济活跃度的指数（Digital-travel Economic Vitality Index，DEVI），从时间、疫情事件、地理区域等维度灵敏捕捉经济活跃度的变化特征，以便更好地了解和掌握城市的经济运行情况。

首先，在时间维度上，可以发现DEVI走势与宏观经济走势基本一致。自2017—2020年，DEVI分别为133.4、143.0、147.6、149.2，呈增速放缓的增长趋势。有趣的是，2018—2020年DEVI同比增长率与同期GDP增速基本一致。从季度来看，DEVI同比增速与GDP同比增速呈强相关关系（相关系数 r =0.73）；从月度来看，DEVI同比和全社会用电量同比走势基本一致（相关系数 r =0.61），且该指数的月度环比与宏观经济指数PMI的月度环比也高度一致（相关系数 r =0.91）。这些说明DEVI指数对经济活跃度的变化敏感。其次，根据疫情事件作为对比时间点，可以发现滴滴出行的消费场景下沉态势愈加凸显。根据DEVI，头部城市消费占全国比重逐年下降，前20头部城市的消费指数占比从52.5%下降至48.1%，而腰部和尾部城市消费指数占比分别从2017年34.3%、13.2%增长到36.2%和15.6%，说明低线城市、小城镇和农村的庞大群体成为消费新主力，呈现消费下沉的新趋势。最后，根据地区分布，可以发现东部地区2017—2020年的DEVI最高且呈现上升趋势，中部地区和东北地区2017—2019年的DEVI均较平稳，西部地区的DEVI在2017—2020年逐渐上升且开始超越中部。从疫情后的恢复速度来看，东部地区虽然最快实现生产复苏，但消费活跃度较疫情发生前有明显下滑，中部和西部地区的生产和消费均呈现出明显的复苏态势，使得中西部2020年经济活跃度有所提高。此外，和北方地区相比，南方地区的DEVI在2017—2020年占全国总指数70%以上，说明南方地区总体经济实力更强。从2020年DEVI的增速看，南方地区同比增长2.83%，北方地区却同比下降了2.78%，经济增长呈现“南快北慢”趋势。在受到疫情冲击后，南方地区在6月份就恢复至疫情前水平，而北方地区直至8月才恢复至疫情前水平，消费服务受到较大影响。

结合上述的经济活跃度指数分析和我国经济发展新形势，能够精准把握城市群发展动态，推动我国现代化都市圈建设。对于政府而言，可以实现对城市发展的动态体检，及时识别城市发展堵点，量化城市的运行状态，增强现代化城市治理能力，提高城市发展质量，让城市生活更美好。对于企业而言，可以细化市场出行的营销场景，寻找出重点发展的有价值的营销场景，提供个性化服务，实现价值引领，进而促进企业更好地发展，推动社会进步。

◎ 思考与练习

1.请说明特征分解的过程。

2.请说明奇异值分解的过程。

3.阐述无约束最优化问题与约束最优化问题之间的区别与联系。

4.无约束最优化方法可分为哪几类？说明这些优化方法的特点。

5.统计包含的三种含义是什么？

6.统计数据可分为几种类型？并且说明这几种类型数据的特点。

7.阐述描述性统计和推断性统计的区别。

◎ 本章扩展阅读

[1]田玉斌，李国英，张英. Logistic响应分布中刻度参数的中、小样本推断[J]. 应用数学学报，2004（2）：254-264.

[2]宫晓琳，杨淑振，孙怡青，等. 基于概率统计不确定性模型的CCA方法[J]. 管理科学学报，2020，23（4）：55-64.

[3]程从华. 基于截尾数据指数Pareto分布应力：强度模型的可靠性[J]. 数学学报（中文版），2020，63（3）：193-208.

[4]毕秀丽，邱雨檬，肖斌，等. 基于统计特征的图像直方图均衡化检测方法[J]. 计算机学报，2021，44（2）：292-303.

[5]刘玉涛，潘婧，周勇. 右删失长度偏差数据分位数差的非参数估计[J]. 数学学报（中文版），2020，63（2）：105-122.

[6]肖艳平，宋海洋，叶献辉. 统计能量分析中参数不确定性分析[J]. 应用数学和力学，2019，40（4）：443-451.

[7]付维明，秦家虎，朱英达. 基于扩散方法的分布式随机变分推断算法[J]. 自动化学报，2021，47（1）：92-99.

[8]GOLUB G H，VAN C F. Matrix computations[M]. Baltimore JHU Press，2013.

[9]BOYD S，BOYD S P，VANDENBERGHE L.Convex optimization[M].Cambridge:Cambridge University Press，2004.

[10]BENGIO Y，LODI A，PROUVOST A.Machine learning for combinatorial optimization: a methodological tour d'horizon[J].European Journal of Operational Research，2021，290（2）：405-421.

[11]GAMBELLA C，GHADDAR B，NAOUM-SAWAYA J.Optimization problems for machine learning：a survey[J].European Journal of Operational Research，2021，290（3）：807-828.

[12]YANG C，JIANG Y，HE W，et al.Adaptive parameter estimation and control design for robot manipulators with finite-time convergence[J].IEEE Transactions on Industrial Electronics，2018，65（10）：8112-8123.

[13]CHEN X，XU B，MEI C，et al.Teaching-learning-based artificial bee colony for solar photovoltaic parameter estimation[J].Applied Energy，2018，212（1）：1578-1588.

[14]HAN W，WANNG Z，SHEN Y，et al.Interval estimation for uncertain systems via polynomial chaos expansions[J].IEEE Transactions on Automatic Control，2021，66（1）：468-475.

第二章 大数据管理与应用的数学基础

第一节 线性代数基础