购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第2章
统计与优化基础

统计和优化是最基本的机器学习基础知识。众多机器学习算法的性能评价或目标函数需要用统计方法进行描述,多数算法的目标函数是所求参数的非线性函数,需要通过优化算法进行迭代计算,本章概要讨论这两方面的基础知识。需要指出的是,本章给出的材料仅仅为了本书的后续章节需要,是非常简略的,需要更深入了解统计和优化知识的读者,可参考该领域的专门著作。

视频讲解

2.1 概率论基础

本节对概率论的一些常用概念和公式进行简要介绍,熟悉概率论基础的读者可跳过本节。

由于离散随机变量和连续随机变量有许多数学表示上的不同,分别予以介绍。

2.1.1 离散随机变量

用大写符号 X 表示随机变量,若其取值为有限的离散值,则是离散随机变量。例如,游戏用的骰子有6个面,用随机变量 X 表示其面的点数,故 X 仅取1~6的6个整数值。 X 取值为2的概率用 P X =2)表示,大写字母表示概率。对于更一般的情况,若用小写字母 x 表示 X 的取值,这里 x 仅取离散值,则有

p x )= P X=x ) (2.1.1)

p x )表示离散随机变量的概率函数,其表示 X = x 的概率,全书用同样的符号表示离散和连续随机变量。

概率函数满足如下基本条件

可用如下符号表示两个随机变量的联合概率函数

p x y )= P X=x Y=y ) (2.1.2)

在随机变量 Y 的取值已确定的条件下表示 X 概率的函数,称为条件概率函数,下式表示条件概率函数

p x|y )= P X=x|Y=y ) (2.1.3)

对于离散随机变量,概率函数满足如下三个基本公式。

边际概率公式(和公式)

全概率公式(积公式)

p x y )= p x|y p y )= p y|x p x ) (2.1.5)

贝叶斯公式

2.1.2 连续随机变量

对于连续随机变量 X ,可定义概率分布函数为

F x )= P { X x } (2.1.7)

注意,这里用大写字母 P 表示一个事件的概率,将 p 留给概率密度函数。如果有多个随机变量 X 1 X 2 ,…, X M ,其联合概率分布函数定义为

F x 1 x 2 ,…, x M )= P { X 1 x 1 X 2 x 2 ,…, X M x M } (2.1.8)

对于连续随机变量,更常用的是概率密度函数(probability density function,PDF) p x )。可以这样理解概率密度函数:设 Δ 很小,由 F x )的定义, X 取值在 x - Δ < X x 内的概率为 F x )- F x - Δ ),用PDF表示的近似概率值为 p x Δ ,则

Δ →0的极限,如果 F x )对 x 可导,则

对于联合概率分布,如果 F x 1 x 2 ,…, x M )分别对 x 1 x 2 ,…, x M 是可导的,则联合概率密度函数为

PDF满足非负性和在取值区间积分为1,即

可用向量 X =[ X 1 X 2 ,…, X M ] T 表示多个随机变量,其取值向量为 x =[ x 1 x 2 ,…, x M ] T ,用紧凑符号 p x )表示随机向量的概率密度函数。在概率论中,一般强调用 X 表示随机变量自身,用 x 表示其取值变量,但在许多工程文献中,为了符号简单,常用 x 表示这两个含义,一般不会引起歧义。

已有许多概率密度函数用于表示一些实际问题,这里举两个常用的例子。

例2.1.1 若一个随机变量满足[ a b ]区间的均匀分布,其概率密度函数写为

例2.1.2 若一个随机变量满足如下概率密度函数

称其满足高斯分布或正态分布,这里 μ 称为其均值, σ 2 称为其方差,概率密度函数的图形表示如图2.1.1所示。

图2.1.1 高斯密度函数

对于联合概率密度函数,若满足

p x 1 x 2 ,…, x M )= p 1 x 1 p 2 x 2 )… p M x M ) (2.1.14)

则称各随机变量是互相统计独立的。如果各变量的概率密度函数 p i x i )= p x i )是相同函数,则称其是独立同分布的(indepenent identically distribution,I.I.D)。经常假设机器学习中的样本集满足I.I.D性,I.I.D性可推广到每个 x i 是同维度向量的情况。

如果有

p x 1 x 2 ,…, x M )= p x 1 x 2 ,…, x l p x l+ 1 ,…, x M ) (2.1.15)

则称{ x 1 x 2 ,…, x l }和{ x l +1 ,…, x M }两个子集是统计独立的,但在每个子集内各变量不一定独立。

如果已知一个联合概率密度函数 p x 1 x 2 ,…, x M ),通过在其取值区间积分消去一些变量,得到剩下的子集变量的联合概率密度函数,这个子集变量的联合概率密度函数称为边际分布,例如

与离散情况类似,条件概率是很常用的概念。对于两个随机变量 X 1 X 2 ,假设其联合概率密度函数为 p x 1 x 2 ),在 X 1 = x 1 确定的条件下, X 2 = x 2 的条件概率密度函数记为 p x 2 | x 1 ),则有

反之,由条件概率密度函数,也可以得到联合概率密度函数

p x 1 x 2 )= p x 2 |x 1 p x 1 ) (2.1.19)

显然,改变 x 1 x 2 的作用,上式可进一步写为

p x 1 x 2 )= p x 2 |x 1 p x 1 )= p x 1 |x 2 p x 2 ) (2.1.20)

可将条件概率密度概念推广到更一般情况,对于{ X 1 X 2 ,…, X M }的联合概率密度函数 p x 1 x 2 ,…, x M ),更一般的条件概率密度函数可写为

对于条件概率密度函数,不难导出其链式法则(证明留作习题)为

p x 1 ,…, x M- 1 x M )= p x M |x M- 1 ,…, x 1 )… p x 2 |x 1 p x 1 ) (2.1.22)

2.1.3 随机变量的统一表示

离散和连续随机变量尽管不同,但基本公式是相同的,例如全概率公式和条件概率公式等形式上是一致的,但求边际分布时,离散用求和,连续用积分,这种区别在后续很多应用中都是类似的。为了减少符号类型,尽管都用函数形式 p x ),对离散随机变量,其表示 X = x 的概率值,但对连续随机变量来讲,其表示 X = x 的概率密度值,因为连续随机变量 X = x 的概率是无穷小量,故需要用概率密度表示。在机器学习中,遇到的对象既可能是离散的,也可能是连续的,均用 p x )表示其概率函数。

可以通过引入冲激函数 δ x ),将取值连续和取值离散的随机变量统一用概率密度函数表示。对于离散随机变量 X ,其只可能取{ x 1 x 2 ,…, x K }集合中的值,若 P X = x i )= p i ,其概率密度函数可表示为

这里 δ x )称为冲激函数,是一个广义函数,由狄拉克给出的定义为

其最基本的性质为抽取性质,即 f t δ t )= f (0) δ t ),这里 f t )在 t =0处连续,以及积分抽取性质

例2.1.3 X 表示投一个硬币,仅取0、1值分别表示正面和反面,若两面出现概率相等,这是最简单的离散随机变量,利用冲激函数将概率密度函数写为

p x )=0.5 δ x + 0.5 δ x- 1)

对于离散随机变量,可以使用2.1.1节的概率函数表示,也可以使用冲激函数表示的概率密度函数表示。

2.1.4 随机变量的基本特征

除概率表示外,还常用到一些随机变量的特征,用于描述随机变量的一些性质。最常用的统计特征量是它的一阶和二阶特征,包括均值和方差,这里用连续变量的表示方式定义如下。

均值(一阶特征)

方差(二阶特征)

E [·]表示数学期望。对于连续随机变量, μ = E [ X ]表示其均值,方差 σ 2 表示随机变量取值远离均值的发散程度, σ 2 越小,概率密度函数越集中在均值附近, σ 2 越大,概率密度函数越散布在更宽的范围内。对随机变量来讲,取值的发散程度实际代表其取值的不确定性。方差的平方根 σ 称为标准差,可更直接地表示不确定性。

如例2.1.2的高斯分布,其概率密度的最大值点为 x = μ ,计算可得 X 取值落在[ μ -2 σ μ +2 σ ]区间的概率约为0.95,计算过程为

即高斯分布以95%的可能性其取值在以 μ 为中心±2 σ 范围内。因此, σ 越小,高斯概率密度就越窄地集中在均值附近,当 σ →0时高斯分布趋于一个冲激函数 δ x - μ ),此时其退化为确定量,以概率1取值 μ 。在机器学习中,方差是刻画模型和算法是否有效的评价指标之一。

更一般地,考虑任何一个函数 g (·),随机变量的函数的期望定义为

显然均值和方差是函数期望的两个特例。

以上是用连续变量给出的特征定义,以式(2.1.27)的函数期望为例,考虑离散情况,设离散随机变量为 X ,取值集合为{ x 1 x 2 ,…, x K },且 p X = x i )= p i ,将式(2.1.23)表示的离散概率密度函数代入式(2.1.27)得

以上使用了冲激函数的积分抽取性质,结果重写如下:

实际上,对离散信号可以直接定义式(2.1.28)作为函数期望。通过离散随机变量的冲激函数表示的概率密度方式,从连续的积分定义也导出同样结果。因为这种统一性,后续讨论一些统计方法的计算时,若只针对离散情况,可直接用式(2.1.28)求和,但若对连续和离散做统一处理,则采用积分公式,积分公式包含了离散作为特殊情况。

实际中常使用随机向量,例如机器学习中样本的特征大多是向量形式。考虑 M 个随机变量排成一个列向量。对于随机向量,其均值向量由各元素的均值组成同维数向量,对于二阶特征,随机向量常用的是自相关矩阵和自协方差矩阵,其定义如下。

定义2.1.1 M 维随机向量的取值用向量 x =[ x 1 x 2 ,…, x M ] T 表示,向量各分量取自一个随机变量 X k ,随机向量的均值向量记为

μ x = E [ x ] (2.1.29)

其自相关矩阵定义为向量外积的期望,即

R xx = E [ xx T ] (2.1.30)

这是一个 M × M 方阵。随机向量的自协方差矩阵定义为

对于零均值情况,自协方差矩阵就等于自相关矩阵。在不引起误解的情况下,可省略矩阵的下标,分别简写成 R C

自协方差矩阵的各元素可表示为 ,可见自协方差矩阵的对角线元素对应向量中每个分量的方差,而非对角线元素对应向量中两个不同分量的互协方差。自协方差矩阵是对一般随机向量的一个重要特征,有几个基本性质。

(1)自协方差矩阵是对称的,即 C T = C

(2)自协方差矩阵是半正定的,即对任意 M 维数据向量 a 0 0 表示全0值向量),有 a T Ca ≥0,一般情况下, C 是正定的。

(3)特征分解,由矩阵理论知,自协方差矩阵的特征值总是大于或等于零,如果自协方差矩阵是正定的,它的特征值总是大于零,不同的两个特征值对应的特征向量是正交的。

设自协方差矩阵 C M 个特征值分别记为 λ 1 λ 2 ,…, λ M ,各特征值对应的特征向量分别记为 q 1 q 2 ,…, q M ,设其是长度为1的归一化向量,即

以特征向量作为列构成的矩阵 Q 称为特征矩阵, Q

Q =[ q 1 q 2 ,…, q M ] (2.1.32)

容易验证,自协方差矩阵可以分解为

这里 Λ =diag( λ 1 λ 2 ,…, λ M )是由特征值组成的对角矩阵, Q 是正交矩阵,即 Q -1 = Q T

2.1.5 随机特征的蒙特卡洛逼近

式(2.1.27)表示的随机变量函数的期望是一般的形式,所使用的大多数特征是该式的特例,将其重新写为向量形式如下:

式(2.1.34)的积分符号可表示多重积分, g 可以是标量函数也可以是向量函数。

利用式(2.1.34)直接计算期望在许多情况下是困难甚至不可能的,当 p x )是很复杂的概率密度函数时,积分没有解析结果,需要做逼近运算。一种办法是通过概率密度函数 p x ),产生一组样本

{ x n n= 1,2,…, N } (2.1.35)

通过样本逼近式(2.1.34)的积分。在机器学习领域应用时,甚至不知道准确的 p x ),只能采集一组如式(2.1.35)所示的样本集,在这些情况下,需要用样本逼近期望,这种用样本集逼近期望的方法称为蒙特卡洛逼近。

蒙特卡洛逼近的基本做法是,通过式(2.1.35)的样本集,首先逼近概率密度函数,最直接的逼近是将每个样本用一个冲激函数表示(这是稍后介绍的Parzen窗方法的一种极端情况),即

代入式(2.1.34),有

p x )取值大的位置,样本 x n 会很密集,蒙特卡洛逼近用这种方式反映了概率分布。

例2.1.4 一组标量样本{ x n n =1,2,…, N },样本是I.I.D的,设其均值为 μ ,方差为 σ 2 ,用蒙特卡洛方法逼近其均值。

本例中求均值,故 g x )= x ,代入式(2.1.37)的均值逼近为

由于用有限随机样本估计 μ ,估计值 也是随机变量,该估计值的均值为

估计的均值等于真实均值,这种估计称为无偏估计。接下来计算 的方差

注意到,估计的参数 的方差随样本数 N 线性下降,对于I.I.D集,方差的这个下降规律具有一般性,即样本数量增加,参数估计的方差减小,估计的可确定性提高。实际的许多方法,估计值既存在偏差,也存在方差,两者之间需做平衡。第5章对机器学习中偏差与方差的平衡有进一步的讨论。

对于监督学习,可以定义样本的损失函数为 L f x θ ), y ), f x θ )表示机器学习要训练的模型, θ 是模型参数, L (·,·)是选择的一种损失函数,样本的联合分布是 p x y ),若定义 L (·,·)的期望为风险函数,即

J * θ )= E p x y { L f x θ ), y )} (2.1.40)

但实际上只有一个样本集 D ={( x n y n ), n =1,2,…, N },若需要用蒙特卡洛逼近风险函数,则用 替代 p ,有

由于只用样本集逼近,将式(2.1.41)表示的 J θ )称为经验风险函数,可见经验风险函数是 J * θ )的蒙特卡洛逼近。 J * θ )的最小化一般不可求,转而求 J θ )的最小化,这是机器学习的基本做法,同时也是许多困扰性问题的起源(如泛化误差、过拟合等)。

例2.1.5 讨论一个随机变量的零均值化和归一化,这是机器学习的数据预处理常用技术。

设有一个随机变量 X ,其均值为 μ ,方差为 σ 2 ,若做变换 则可验证, ,即 是零均值和归一化的。

如果只有关于 X 的一组样本{ x n n =1,2,…, N },且样本是I.I.D的,用蒙特卡洛方法逼近其均值和方差为

实际中,用 进行近似零均值和归一化变换,或对每个样本做变换

注意到,在 中,用估计的 替代 μ 带来的方差估计是有偏的,为了矫正偏的影响,在 估计公式中,常以 N -1替代 N

对于多随机变量构成的向量,同样可以将其零均值化、白化(各分量不相关)和归一化,留作习题。 0+NSJE4JihRWO3GoPLHthIMhLakAuI7sSTVPjOpChATC455JStpzv2DNdnbxGmnx

点击中间区域
呼出菜单
上一章
目录
下一章
×