购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.2 机器学习模型

通过上述案例不难看出,要进行机器学习,首先需要提出一个模型,如前面的一元线性回归模型。除此之外,机器学习还有更多的模型等着读者前去探索。本节将重点介绍机器学习模型中的一些概率与基本术语,以便读者对机器学习模型有一个基本的认识,并且提高读者阅读文献的能力。

2.2.1 基本概念

1.样本与总体

在任何机器学习任务中,都必须具备进行模型学习和训练的数据集,该数据集就是样本。而机器学习的目标就是依靠有限的样本,尽量拟合、表征无限的总体。

对于机器学习问题,总体一般为无限总体,这一点与统计学相同。机器学习所要研究的正是总体的规律。但是,无论大数据时代数据量再怎么庞大,都不可能覆盖地球上过去的、现在的以及未来的所有梅花鹿数据。因此,样本总是有限的。一般,我们称从总体中随机抽样产生的数据集为样本,样本的每一条数据为个体。除因变量外,样本中每一个属性称为特征(feature),如图2.2所示。

图2.2 样本、个体与特征示意

一个样本中的个体必须满足随机抽样的性质,不能破坏其随机性且个体应相互独立。在一些书籍中,也称特征为预报变量(predictor),称因变量为响应变量(response)。对于监督学习,每一个个体的响应变量都必须有一个观测值作为目标(target)。在分类任务中,也称因变量的观测值为标签(label)。

2.一般变量与随机变量

在数学上,一般将可以精确测量或严格控制的量称为一般变量。例如,如果知道正方形的边长 a ,那么面积 S = a 2 是一个确定的值,因此 S 属于一般变量。如果知道体重,求肺活量,那么同一体重的不同个体,即使是双胞胎,肺活量也有可能不同。通常称这类具有随机的、不可知因素作用,随个体不同而不同的变量为随机变量。如果说一般变量可以用 x = μ 表示,那么随机变量可以用 x = μ + ε 表示,其中, ε 为噪声项。不同个体的 ε 亦不同,但是在数据量足够大的情况下,根据大数定律和中心极限定理, ε 的均值应为0,即 E ( ε )=0。

在统计学中,称随机变量组成的序列为随机向量。一般,样本中的每个特征都应该是一个随机变量。因此,也可以用随机向量 x =( x 体重 , x 性别 , x 生殖状况 , x 发酵肠容量 ),来表示图2.2所示的样本个体。有时候也称向量 x 为特征向量

2.2.2 参数模型与无参数模型

通过第1章的学习我们知道,分类问题是指输出为离散型包括枚举型和二值型的变量的问题,例如:

y {春,夏,秋,冬}, y ={0,1,2,3}或 y ={-1,1}

回归问题则指输出为连续型变量的问题。在机器学习中,称用于分类问题的模型为分类器(classifier),并用 c (·)表示。用于回归问题的模型可以用 r (·)表示,称为回归机(regressor)。

说明: 这里我们使用 c (·)表示分类器模型,使用 r (·)表示回归模型。其中,括号内的点表示一个通用的输入变量。

如果模型的输出值不仅取决于特征 x ,而且取决于模型的参数,则这类模型也称为参数模型。因为在参数模型的训练过程中通过调整参数,可以使风险函数最低,因此也称参数模型为参数学习(parametric learning)。基于参数模型的特性,可以将模型写成函数表达式的形式:

其中,向量 ω 表示模型的参数。一般, r ( x , ω ), c ( x , ω )的表达式一经确定就不能改变,参数 ω 的个数在训练过程中不会增加或凭空减少。模型的表达式在模型提出之前才能调整,在训练过程中一般是固定的。

根据数理统计的有关知识,在大样本条件下,观测目标 y 的表达式应满足:

其中, N ( μ ; σ 2 )代表个体的不同而引起的噪声项,噪声满足均值为 μ 、方差为 σ 2 的正态分布。即使特征 x 相同,观测值 y 亦存在个体差异。通常,模型训练的过程实际上是选取不同的参数 ω ,使得:

并且满足:

μ =0

如果得出的噪声项不满足均值为0的条件,则说明数据量不够或者特征向量 x 考虑不周全。一般,称式(2.11)为经验模型,式(2.12)为理论模型,后者是理想化的概念,它并非由数据估计得来。常见的参数模型有线性回归和支持向量机等。

在某些机器学习算法中,不对模型的表达式的形式做出任何强烈的假设,即 并没有固定的函数形式,这种模型称为非参数模型。由于模型的形式是从训练集中动态生成的,因此也叫非参数学习(non-parametric learning)。例如即将在2.5.2节中介绍的KNN算法(也称 K 近邻算法)即为非参数模型的一种,参数与非参数模型的区别如表2.4所示。

表2.4 参数模型与非参数模型的区别 721nrcgsQTz7uij1p+TKFCFdWlnOHx0qnUEh7IqckB9D5yKRrxf8B5eOL1GZFinU

点击中间区域
呼出菜单
上一章
目录
下一章
×