机器学习教程(微课视频版)最新章节_张旭东著

第2章
统计与优化基础

统计和优化是最基本的机器学习基础知识。众多机器学习算法的性能评价或目标函数需要用统计方法进行描述，多数算法的目标函数是所求参数的非线性函数，需要通过优化算法进行迭代计算，本章概要讨论这两方面的基础知识。需要指出的是，本章给出的材料仅仅为了本书的后续章节需要，是非常简略的，需要更深入了解统计和优化知识的读者，可参考该领域的专门著作。

视频讲解

2.1　概率论基础

本节对概率论的一些常用概念和公式进行简要介绍，熟悉概率论基础的读者可跳过本节。

由于离散随机变量和连续随机变量有许多数学表示上的不同，分别予以介绍。

2.1.1　离散随机变量

用大写符号 X 表示随机变量，若其取值为有限的离散值，则是离散随机变量。例如，游戏用的骰子有6个面，用随机变量 X 表示其面的点数，故 X 仅取1～6的6个整数值。 X 取值为2的概率用 P （ X =2）表示，大写字母表示概率。对于更一般的情况，若用小写字母 x 表示 X 的取值，这里 x 仅取离散值，则有

p （ x ）= P （ X=x ）　（2.1.1）

p （ x ）表示离散随机变量的概率函数，其表示 X = x 的概率，全书用同样的符号表示离散和连续随机变量。

概率函数满足如下基本条件

可用如下符号表示两个随机变量的联合概率函数

p （ x ， y ）= P （ X=x ， Y=y ）　（2.1.2）

在随机变量 Y 的取值已确定的条件下表示 X 概率的函数，称为条件概率函数，下式表示条件概率函数

p （ x|y ）= P （ X=x|Y=y ）　（2.1.3）

对于离散随机变量，概率函数满足如下三个基本公式。

边际概率公式（和公式）

全概率公式（积公式）

p （ x ， y ）= p （ x|y ） p （ y ）= p （ y|x ） p （ x ）　（2.1.5）

贝叶斯公式

2.1.2　连续随机变量

对于连续随机变量 X ，可定义概率分布函数为

F （ x ）= P { X ≤ x }　（2.1.7）

注意，这里用大写字母 P 表示一个事件的概率，将 p 留给概率密度函数。如果有多个随机变量 X ₁ ， X ₂ ，…， X _M ，其联合概率分布函数定义为

F （ x ₁ ， x ₂ ，…， x _M ）= P { X ₁ ≤ x ₁ ， X ₂ ≤ x ₂ ，…， X _M ≤ x _M }　（2.1.8）

对于连续随机变量，更常用的是概率密度函数（probability density function，PDF） p （ x ）。可以这样理解概率密度函数：设 Δ 很小，由 F （ x ）的定义， X 取值在 x - Δ < X ≤ x 内的概率为 F （ x ）- F （ x - Δ ），用PDF表示的近似概率值为 p （ x ） Δ ，则

取 Δ →0的极限，如果 F （ x ）对 x 可导，则

对于联合概率分布，如果 F （ x ₁ ， x ₂ ，…， x _M ）分别对 x ₁ ， x ₂ ，…， x _M 是可导的，则联合概率密度函数为

PDF满足非负性和在取值区间积分为1，即

可用向量 X =[ X ₁ ， X ₂ ，…， X _M ] ^T 表示多个随机变量，其取值向量为 x =[ x ₁ ， x ₂ ，…， x _M ] ^T ，用紧凑符号 p （ x ）表示随机向量的概率密度函数。在概率论中，一般强调用 X 表示随机变量自身，用 x 表示其取值变量，但在许多工程文献中，为了符号简单，常用 x 表示这两个含义，一般不会引起歧义。

已有许多概率密度函数用于表示一些实际问题，这里举两个常用的例子。

例2.1.1 若一个随机变量满足[ a ， b ]区间的均匀分布，其概率密度函数写为

例2.1.2 若一个随机变量满足如下概率密度函数

称其满足高斯分布或正态分布，这里 μ 称为其均值， σ ² 称为其方差，概率密度函数的图形表示如图2.1.1所示。

图2.1.1　高斯密度函数

对于联合概率密度函数，若满足

p （ x ₁ ， x ₂ ，…， x _M ）= p ₁ （ x ₁ ） p ₂ （ x ₂ ）… p _M （ x _M ）　（2.1.14）

则称各随机变量是互相统计独立的。如果各变量的概率密度函数 p _i （ x _i ）= p （ x _i ）是相同函数，则称其是独立同分布的（indepenent identically distribution，I.I.D）。经常假设机器学习中的样本集满足I.I.D性，I.I.D性可推广到每个 x _i 是同维度向量的情况。

如果有

p （ x ₁ ， x ₂ ，…， x _M ）= p （ x ₁ ， x ₂ ，…， x _l ） p （ x _l+ ₁ ，…， x _M ）　（2.1.15）

则称{ x ₁ ， x ₂ ，…， x _l }和{ x _l ₊₁ ，…， x _M }两个子集是统计独立的，但在每个子集内各变量不一定独立。

如果已知一个联合概率密度函数 p （ x ₁ ， x ₂ ，…， x _M ），通过在其取值区间积分消去一些变量，得到剩下的子集变量的联合概率密度函数，这个子集变量的联合概率密度函数称为边际分布，例如

与离散情况类似，条件概率是很常用的概念。对于两个随机变量 X ₁ 、 X ₂ ，假设其联合概率密度函数为 p （ x ₁ ， x ₂ ），在 X ₁ = x ₁ 确定的条件下， X ₂ = x ₂ 的条件概率密度函数记为 p （ x ₂ | x ₁ ），则有

反之，由条件概率密度函数，也可以得到联合概率密度函数

p （ x ₁ ， x ₂ ）= p （ x ₂ |x ₁ ） p （ x ₁ ）　（2.1.19）

显然，改变 x ₁ 、 x ₂ 的作用，上式可进一步写为

p （ x ₁ ， x ₂ ）= p （ x ₂ |x ₁ ） p （ x ₁ ）= p （ x ₁ |x ₂ ） p （ x ₂ ）　（2.1.20）

可将条件概率密度概念推广到更一般情况，对于{ X ₁ ， X ₂ ，…， X _M }的联合概率密度函数 p （ x ₁ ， x ₂ ，…， x _M ），更一般的条件概率密度函数可写为

对于条件概率密度函数，不难导出其链式法则（证明留作习题）为

p （ x ₁ ，…， x _M- ₁ ， x _M ）= p （ x _M |x _M- ₁ ，…， x ₁ ）… p （ x ₂ |x ₁ ） p （ x ₁ ）　（2.1.22）

2.1.3　随机变量的统一表示

离散和连续随机变量尽管不同，但基本公式是相同的，例如全概率公式和条件概率公式等形式上是一致的，但求边际分布时，离散用求和，连续用积分，这种区别在后续很多应用中都是类似的。为了减少符号类型，尽管都用函数形式 p （ x ），对离散随机变量，其表示 X = x 的概率值，但对连续随机变量来讲，其表示 X = x 的概率密度值，因为连续随机变量 X = x 的概率是无穷小量，故需要用概率密度表示。在机器学习中，遇到的对象既可能是离散的，也可能是连续的，均用 p （ x ）表示其概率函数。

可以通过引入冲激函数 δ （ x ），将取值连续和取值离散的随机变量统一用概率密度函数表示。对于离散随机变量 X ，其只可能取{ x ₁ ， x ₂ ，…， x _K }集合中的值，若 P （ X = x _i ）= p _i ，其概率密度函数可表示为

这里 δ （ x ）称为冲激函数，是一个广义函数，由狄拉克给出的定义为

其最基本的性质为抽取性质，即 f （ t ） δ （ t ）= f （0） δ （ t ），这里 f （ t ）在 t =0处连续，以及积分抽取性质。

例2.1.3 用 X 表示投一个硬币，仅取0、1值分别表示正面和反面，若两面出现概率相等，这是最简单的离散随机变量，利用冲激函数将概率密度函数写为

p （ x ）=0.5 δ （ x ） + 0.5 δ （ x- 1）

对于离散随机变量，可以使用2.1.1节的概率函数表示，也可以使用冲激函数表示的概率密度函数表示。

2.1.4　随机变量的基本特征

除概率表示外，还常用到一些随机变量的特征，用于描述随机变量的一些性质。最常用的统计特征量是它的一阶和二阶特征，包括均值和方差，这里用连续变量的表示方式定义如下。

均值（一阶特征）

方差（二阶特征）

E [·]表示数学期望。对于连续随机变量， μ = E [ X ]表示其均值，方差 σ ² 表示随机变量取值远离均值的发散程度， σ ² 越小，概率密度函数越集中在均值附近， σ ² 越大，概率密度函数越散布在更宽的范围内。对随机变量来讲，取值的发散程度实际代表其取值的不确定性。方差的平方根 σ 称为标准差，可更直接地表示不确定性。

如例2.1.2的高斯分布，其概率密度的最大值点为 x = μ ，计算可得 X 取值落在[ μ -2 σ ， μ +2 σ ]区间的概率约为0.95，计算过程为

即高斯分布以95%的可能性其取值在以 μ 为中心±2 σ 范围内。因此， σ 越小，高斯概率密度就越窄地集中在均值附近，当 σ →0时高斯分布趋于一个冲激函数 δ （ x - μ ），此时其退化为确定量，以概率1取值 μ 。在机器学习中，方差是刻画模型和算法是否有效的评价指标之一。

更一般地，考虑任何一个函数 g （·），随机变量的函数的期望定义为

显然均值和方差是函数期望的两个特例。

以上是用连续变量给出的特征定义，以式（2.1.27）的函数期望为例，考虑离散情况，设离散随机变量为 X ，取值集合为{ x ₁ ， x ₂ ，…， x _K }，且 p （ X = x _i ）= p _i ，将式（2.1.23）表示的离散概率密度函数代入式（2.1.27）得

以上使用了冲激函数的积分抽取性质，结果重写如下：

实际上，对离散信号可以直接定义式（2.1.28）作为函数期望。通过离散随机变量的冲激函数表示的概率密度方式，从连续的积分定义也导出同样结果。因为这种统一性，后续讨论一些统计方法的计算时，若只针对离散情况，可直接用式（2.1.28）求和，但若对连续和离散做统一处理，则采用积分公式，积分公式包含了离散作为特殊情况。

实际中常使用随机向量，例如机器学习中样本的特征大多是向量形式。考虑 M 个随机变量排成一个列向量。对于随机向量，其均值向量由各元素的均值组成同维数向量，对于二阶特征，随机向量常用的是自相关矩阵和自协方差矩阵，其定义如下。

定义2.1.1 设 M 维随机向量的取值用向量 x =[ x ₁ ， x ₂ ，…， x _M ] ^T 表示，向量各分量取自一个随机变量 X _k ，随机向量的均值向量记为

μ _x = E [ x ]　（2.1.29）

其自相关矩阵定义为向量外积的期望，即

R _xx = E [ xx ^T ]　（2.1.30）

这是一个 M × M 方阵。随机向量的自协方差矩阵定义为

对于零均值情况，自协方差矩阵就等于自相关矩阵。在不引起误解的情况下，可省略矩阵的下标，分别简写成 R 、 C 。

自协方差矩阵的各元素可表示为，可见自协方差矩阵的对角线元素对应向量中每个分量的方差，而非对角线元素对应向量中两个不同分量的互协方差。自协方差矩阵是对一般随机向量的一个重要特征，有几个基本性质。

（1）自协方差矩阵是对称的，即 C ^T = C 。

（2）自协方差矩阵是半正定的，即对任意 M 维数据向量 a ≠ 0 （ 0 表示全0值向量），有 a ^T Ca ≥0，一般情况下， C 是正定的。

（3）特征分解，由矩阵理论知，自协方差矩阵的特征值总是大于或等于零，如果自协方差矩阵是正定的，它的特征值总是大于零，不同的两个特征值对应的特征向量是正交的。

设自协方差矩阵 C 的 M 个特征值分别记为 λ ₁ ， λ ₂ ，…， λ _M ，各特征值对应的特征向量分别记为 q ₁ ， q ₂ ，…， q _M ，设其是长度为1的归一化向量，即

以特征向量作为列构成的矩阵 Q 称为特征矩阵， Q 为

Q =[ q ₁ ， q ₂ ，…， q _M ]　（2.1.32）

容易验证，自协方差矩阵可以分解为

这里 Λ =diag（ λ ₁ ， λ ₂ ，…， λ _M ）是由特征值组成的对角矩阵， Q 是正交矩阵，即 Q ^-1 = Q ^T 。

2.1.5　随机特征的蒙特卡洛逼近

式（2.1.27）表示的随机变量函数的期望是一般的形式，所使用的大多数特征是该式的特例，将其重新写为向量形式如下：

式（2.1.34）的积分符号可表示多重积分， g 可以是标量函数也可以是向量函数。

利用式（2.1.34）直接计算期望在许多情况下是困难甚至不可能的，当 p （ x ）是很复杂的概率密度函数时，积分没有解析结果，需要做逼近运算。一种办法是通过概率密度函数 p （ x ），产生一组样本

{ x _n ， n= 1，2，…， N }　（2.1.35）

通过样本逼近式（2.1.34）的积分。在机器学习领域应用时，甚至不知道准确的 p （ x ），只能采集一组如式（2.1.35）所示的样本集，在这些情况下，需要用样本逼近期望，这种用样本集逼近期望的方法称为蒙特卡洛逼近。

蒙特卡洛逼近的基本做法是，通过式（2.1.35）的样本集，首先逼近概率密度函数，最直接的逼近是将每个样本用一个冲激函数表示（这是稍后介绍的Parzen窗方法的一种极端情况），即

代入式（2.1.34），有

在 p （ x ）取值大的位置，样本 x _n 会很密集，蒙特卡洛逼近用这种方式反映了概率分布。

例2.1.4 一组标量样本{ x _n ， n =1，2，…， N }，样本是I.I.D的，设其均值为 μ ，方差为 σ ² ，用蒙特卡洛方法逼近其均值。

本例中求均值，故 g （ x ）= x ，代入式（2.1.37）的均值逼近为

由于用有限随机样本估计 μ ，估计值也是随机变量，该估计值的均值为

估计的均值等于真实均值，这种估计称为无偏估计。接下来计算的方差

注意到，估计的参数的方差随样本数 N 线性下降，对于I.I.D集，方差的这个下降规律具有一般性，即样本数量增加，参数估计的方差减小，估计的可确定性提高。实际的许多方法，估计值既存在偏差，也存在方差，两者之间需做平衡。第5章对机器学习中偏差与方差的平衡有进一步的讨论。

对于监督学习，可以定义样本的损失函数为 L （ f （ x ； θ ）， y ）， f （ x ； θ ）表示机器学习要训练的模型， θ 是模型参数， L （·，·）是选择的一种损失函数，样本的联合分布是 p （ x ， y ），若定义 L （·，·）的期望为风险函数，即

J ^* （ θ ）= E _p _（ _x _， _y _） { L （ f （ x ； θ ）， y ）}　（2.1.40）

但实际上只有一个样本集 D ={（ x _n ， y _n ）， n =1，2，…， N }，若需要用蒙特卡洛逼近风险函数，则用替代 p ，有

由于只用样本集逼近，将式（2.1.41）表示的 J （ θ ）称为经验风险函数，可见经验风险函数是 J ^* （ θ ）的蒙特卡洛逼近。 J ^* （ θ ）的最小化一般不可求，转而求 J （ θ ）的最小化，这是机器学习的基本做法，同时也是许多困扰性问题的起源（如泛化误差、过拟合等）。

例2.1.5 讨论一个随机变量的零均值化和归一化，这是机器学习的数据预处理常用技术。

设有一个随机变量 X ，其均值为 μ ，方差为 σ ² ，若做变换则可验证，，即是零均值和归一化的。

如果只有关于 X 的一组样本{ x _n ， n =1，2，…， N }，且样本是I.I.D的，用蒙特卡洛方法逼近其均值和方差为

实际中，用进行近似零均值和归一化变换，或对每个样本做变换

注意到，在中，用估计的替代 μ 带来的方差估计是有偏的，为了矫正偏的影响，在估计公式中，常以 N -1替代 N 。

对于多随机变量构成的向量，同样可以将其零均值化、白化（各分量不相关）和归一化，留作习题。

第2章 统计与优化基础

2.1 概率论基础

2.1.1 离散随机变量

2.1.2 连续随机变量

2.1.3 随机变量的统一表示

2.1.4 随机变量的基本特征