购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.2 提取分类任务中的特征

们往往会根据事物具有的一些特点来区分它们,比如辨别不同鸢尾花品种的时候,依据的是鸢尾花的花瓣大小。我们将像这种可以对事物的某些方面的特点进行刻画的数字或者属性称之为特征。

在鸢尾花分类中,怎样才能得到可以被人工智能系统所使用的特征呢?经过尝试,人们发现用花瓣的长度和宽度作为鸢尾花的特征,可以让分类器有效地分类。

特征是在分类器乃至于所有人工智能系统中非常重要的概念。对同样的事物,我们可以提取出各种各样的特征。比如,可以用鸢尾花植株的高度或者花瓣颜色作为特征。但是,鸢尾花的植株高度和品种没有直接关系,一朵鸢尾花在生命的不同阶段也有着不同的高度;再者不同鸢尾花品种又都有着颜色相近的花瓣。所以用鸢尾花的植株高度和花瓣颜色很难有效区分鸢尾花的品种。我们看到,不同的特征对于分类器的准确分类会有很大的影响。

因此,我们需要根据物体和数据本身具有的特点,考虑不同类别之间的差异,并在此基础上设计出有效的特征。而这不是一件简单的事,它往往需要我们真正理解事物的特点和不同类型之间的差异。特征的质量很大程度上决定了分类器最终分类效果的好坏。

2.2.1 特征向量

通过实际的测量,我们得到了鸢尾花的特征——花瓣的长度和宽度,那么在数学上如何表达它们呢?我们可以用 x 1 来表示花瓣的长度,用 x 2 来表示花瓣的宽度。为了使用方便,进一步地把这两个数字一起放进括号中,写成( x 1 , x 2 )。这种形式的一组数据在数学中被称为向量。

有了向量这个数学工具后,我们就可以把描述一个事物的特征数值都组织在一起,形成一个特征向量,对它进行更完备的刻画。一般地,一个 n 维的特征向量可以被表示为 x= ( x 1 , x 2 , x 3 ,…, x n )。比如测量得到一朵鸢尾花的花瓣长度为1.1cm,宽度为0.1cm,那么这朵鸢尾花的特征就可以用(1.1,0.1)表示。

2.2.2 特征点和特征空间

有了特征的向量表示之后,进一步,我们可以把特征向量表示在直角坐标系中,比如(1.1,0.1),就可以是直角坐标系中的一个点。

我们将鸢尾花的特征向量画在了坐标系中。坐标系中的一个点就代表了一朵鸢尾花的特征,这些表示特征向量的点被称为特征点。所有这些特征点构成的空间称为特征空间。

在特征空间中,特征点到特征点之间的平面距离可以用来衡量鸢尾花之间的相似程度。一般地,对于任意维数的特征空间,我们都可以使用特征点之间的平面距离来衡量鸢尾花之间的相似程度。一般地,对于任意维数的特征空间,我们都可以使用特征点之间的距离来衡量物体之间的相似程度。高维特征空间的距离计算公式与二维特征空间的类似,比如在三维空间里,有两个点分别表示为( x 1 , x 2, x 3 )和( z 1 , z 2, z 3 ),那么两个点之间的距离 d 可以通过下面的式子进行计算: wQYeW54he5S+vAZwR5l7m4nphAFn2BTfoYW2bobuHJ9DBRFdlY+jZ59fEc4Dp3MJ

点击中间区域
呼出菜单
上一章
目录
下一章
×