定义2.1(感知机) 假设输入空间(特征空间)是 X ⊆ R n ,输出空间是 Y ={+1,−1}。输入 x ∈ X 表示实例的特征向量,对应于输入空间(特征空间)的点;输出 y ∈ Y 表示实例的类别。由输入空间到输出空间的如下函数:
称为感知机。其中, w 和 b 为感知机模型参数, w ∈ R n 叫作权值(weight)或权值向量(weight vector), b ∈ R 叫作偏置(bias), w · x 表示 w 和 x 的内积。sign是符号函数,即
感知机是一种线性分类模型,属于判别模型。感知机模型的假设空间是定义在特征空间中的所有线性分类模型(linear classification model)或线性分类器(linear classifier),即函数集合{ f | f ( x )= w · x + b }。
感知机有如下几何解释:线性方程
对应于特征空间 R n 中的一个超平面 S ,其中 w 是超平面的法向量, b 是超平面的截距。这个超平面将特征空间划分为两个部分。位于两部分的点(特征向量)分别被分为正、负两类。因此,超平面 S 称为分离超平面(separating hyperplane),如图2.1所示。
图2.1 感知机模型
感知机学习,由训练数据集(实例的特征向量及类别)
其中, x i ∈ X = R n , y i ∈ Y ={+1,−1}, i =1,2,…, N ,求得感知机模型(2.1),即求得模型参数 w , b 。感知机预测,通过学习得到的感知机模型,对于新的输入实例给出其对应的输出类别。