购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.8 多维直线方程和平面方程以及机器学习

从几何学的角度来说,机器学习分类器的根本作用是什么?我们在1.4节中有过简略的回答。建议读者回顾该节的内容,特别是图1.2和图1.3。这里我们会对该部分内容进行简要地总结。

分类器的输入是特征向量,这些向量可以被视为某个多维特征空间中的点,杂乱无章地分布在输入空间中,而分类任务的核心就是分离属于不同类别的点。模型的目标是将这些点转换到一个不同的(输出)空间,在那里可以更容易地区分不同的类别。图1.3提供了一个直观的例子。

那么,分类器的几何属性是什么?在非常简单的情况下,例如,图1.2所示的情况,分类器是二维空间中的一条线。在实际应用中,分类器通常是高维空间中的线或平面。而在更复杂的情况下,分类器可能是一个曲面,如图1.4所示。

在本节中,我们将针对两种类型的分类器:高维空间中的线和平面,也称为超线和超平面,研究其背后的数学和几何学原理。

2.8.1 多维直线方程

在高中的几何学课程中,我们学习了直线方程的表达方式,即 y = mx + c 。然而,这种表达方式并不适用于更高维度的空间。因此,我们将探讨一种更为通用的直线表达方式,能够适用于任意有限维度的空间。

如图2.8所示,连接向量 a b 的直线可以被视为从点 a 开始,沿着方向 b-a 移动时,经过的所有点的集合。

直线上的不同点可以通过移动不同的距离来获得。设 α 表示该任意距离,则连接向量 a b 的直线方程可以表示为

式(2.12)表明,连接 a b 的直线上的任意点都可以通过 a b 的加权组合来获得,其权重分别是 α 和1- α 。通过改变 α 的值,我们可以得到直线上的不同点。同时, α 不同的取值范围会在线上产生不同的线段。如图2.8所示,当 α 在0到1之间时,线段位于 a b 之间。当 α 为负时,线段位于 a 的左侧。当 α 大于1时,线段位于 b 的右侧。这种直线方程的表达方式适用于任意维度的空间,而不仅仅局限于二维空间。

图2.8 连接两个向量 a b 的直线上的任意点 x ,都可以通过 x = a +α( b-a )来表示

2.8.2 多维平面方程及其在机器学习中的作用

在1.5节中,我们已经初步接触了分类器的概念。现在,我们将深入研究这一主题。假设我们需要创建一个分类器,目标是基于以下三个输入变量,做出是否购买股票的决策:

(1) 动量 ,或股票价格变化的速率(正动量意味着股票价格上升,反之亦然)。

(2)上一季度支付的 股息

(3) 波动性 ,即上一季度股价的波动程度。我们在特征空间中绘制了所有训练点,坐标轴分别对应动量、股息和波动性这三个变量。图2.9展示了不同类别的点可以通过三维特征空间中的一个平面来分隔。

从几何学的角度来看,我们的模型可以简化为一个平面。平面上方的输入点(减号[-])表示买入,而平面下方的输入点(加号[+])则表示不买入。通常,投资者倾向于买入正动量高的股票,所以位于动量轴较高位置的点更可能是买入点。然而,这不是唯一的考虑因素。对于波动性较大的股票,需要更高的动量才会从不买入转为买入。这就是为什么当向右移动(高波动性)时,平面会向上倾斜(高动量)。同样,对于股息较高的股票,投资者对动量的要求也会较低。因此,当向更高股息的方向移动时,平面会向下倾斜(低动量)。

当然,实际问题会涉及更多的维度(因为决策可能依赖更多的输入变量),此时,分类器就转换成了一个超平面。此外,在实际问题中,输入空间内的点往往交织地过于紧密,以至于任何分类器都无法有效地工作。因此,我们需要找到一种转换,将点映射到一个更容易分隔的输出空间。鉴于超平面在机器学习中的重要性,我们将在本小节开始研究超平面的概念。

图2.9 一个用于决策是否买入股票的机器学习分类器示例。加号(+)表示不买入,减号(-)表示买入。决策基于三个输入变量:动量、股息和波动性

在高中的立体几何学课程中,我们学习了平面方程的表达形式,即 ax + by + cz + d =0。现在我们将研究一个适用于更高维度的表达形式。

从几何学的角度来说对于,给定一个平面(可能位于任意维度的空间中),我们可以找到一个方向,称为法线方向,记为 ,使得

·如果我们取平面上的任意两点,比如 x 0 x

·连接 x x 0 的直线,即向量 x-x 0 ,将与 正交。

因此,如果我们知道平面上的一个特定点,比如 x 0 ,那么平面上的所有点都将满足

因此,该平面的方程可以表示为

图2.10为式(2.13)的图形表示。

在1.3节中,我们学习了最简单的机器学习模型——式(1.3),由输入的加权和以及一个偏置来表示。设输入为 x ,权重为 w ,偏置为 b ,则该模型可被描述为

通过对比式(2.13)和式(2.14),我们可以揭示其中的几何意义:式(1.3)所描述的简单模型只是一个平面分类器,其权重向量 w 对应于平面的法线方向,偏置 b 对应于平面的位置,即平面上的一个特定点。在训练过程中,我们学习的是权重和偏置——本质上是学习分离训练输入的最佳平面方向和平面位置。为了与机器学习范式保持一致,之后我们将以式(2.14)的形式来表示超平面的方程,其中 w b 为常数。

请注意,因为等式的右边为零, w 不一定是单位长度的向量。如有必要,我们可以将等式两边同时除以 ,将其转换为类似式(2.13)的形式。

表达式 wx + b 的符号具有特殊意义。所有满足 w T x + b <0的点 x 位于超平面的一侧;满足 w T x + b >0的点 x 位于超平面的另一侧;当然,满足 w T x + b =0的点 x 位于超平面上。

需要注意的是,三维方程 ax + by + cz + d =0是式(2.14)的一个特例,因为它可以被重写为

该表达与 w T x + b =0相同,其中, 。由此可以得出,在三维空间中,平面 ax + y + cz + d =0的法线为

图2.10 平面的法线在所有点上都是相同的。这是平面的一个基本属性, 表示法线方向,设 x 0 是平面上的一个点,平面上的任意其他点为 x ,则( x-x 0 )· =0成立。这表明,平面上的已知点 x 到任意其他点 x 的连线与法线 垂直。该表述适用于任意维度 EaghlfheGeDgmwNtmoLST8z5YKKFg//UyCNd614jq4htvrIOoqHvgUMkA5QCOrR+

点击中间区域
呼出菜单
上一章
目录
下一章
×