购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

2.3 感知机神经元

在前一节中介绍的MP神经元是最早提出的模仿生物神经元工作方式的人工神经元模型,但它存在着一个非常大的局限:MP神经元的权值只能事先给定而不能通过模型自动确定,即MP神经元没有学习能力。本节介绍具备学习能力的感知机神经元。

2.3.1 感知机神经元模型

1957年,美国学者Frank Rossenblatt提出了感知机的概念。感知机被称为第一个具有学习能力的神经元模型结构,其结构与MP神经元基本保持一致,但感知机神经元的参数不是事先人工给定,而是通过学习的方式求得的。那么为什么一定要通过学习得到参数呢?首先,人工给定参数的方式在很多情况下难以实现,比如神经元数量较多时,则有几十万甚至上百万的参数值需要设定,即便人工可以做到,也需要大量的人力。其次,这些工作人员往往还需要具备与要解决的问题相对应的领域知识,在很大程度上限制了模型的使用。感知机神经元在设定好训练样本和期望的输出后,通过学习的方式不断调整实际权值。

感知机神经元的模型结构与MP神经元基本相同。假设输入空间(特征空间)是 X ⊆ℝ n ,输出空间是 Y ={+1,-1}。输入 x X 表示实例的特征向量,对应于输入空间的点,输出 y Y 表示实例的类别。由输入空间映射到输出空间的如下函数称为感知机:

其中, w b 为感知机模型参数, w ∈ℝ n 叫作权值或权值向量, b ∈ℝ叫作偏置, w · x 表示两者的内积。Sgn是符号函数,即:

这是最经典的感知机模型。MP模型中的权值 w 是人工设定的,但是在感知机模型中,权值 w 是通过学习来确定的。

感知机模型的几何解释如图2.16所示。线性方程 w · x + b =0对应于特征空间ℝ n 中的一个超平面 S ,其中 w 是超平面的法向量, b 是超平面的截距,这个超平面将特征空间划分为两个部分,位于两部分的点(特征向量)分别被分为正、负两类。因此,超平面 S 被称为分离超平面。

图2.16 感知机模型的几何解释

2.3.2 感知机神经元的学习

从生物神经元的角度来看,学习是基于外界刺激而不断形成和改变神经元间突触联系的过程。从人工神经元的角度来看,学习是基于样本数据而不断改变连接权值和拓扑结构的过程。具体而言,人工神经网络学习到的知识就是它的权值。神经网络将学到的知识中隐含的信息存储在权值中。可以利用神经网络的自主学习能力实现分类、预测等任务。人类通过学习可以获得进步,同理神经网络也可以通过学习来实现更加复杂的任务。当大量神经元集体进行权值调整的时候,网络就呈现出“智能”的特性,其中有意义的信息就以分布的形式存储在调节后的权值矩阵中。

通过上述内容可以知道感知机神经元最终想要得到的是由 w b 形成的一个超平面,感知机的学习是找到这个超平面的过程。初始的 w b 构成一个超平面,这个超平面随着学习不断地进行变化,最后找到一个能够把两个类分开的最优超平面,学习过程就结束了。

在学习中有训练数据集,包含实例的特征向量及它的类别:

其中, x i X ⊆ℝ n ,y i Y ={+1,-1}, i =1,2,…, n

感知机神经元学习算法基本思路如图2.17所示。首先,对 w b 进行初始化,初始化往往是随机的。然后从训练集中选取一个样本数据( x i ,y i )计算其实际输出,可以简单采用按照样本出现的顺序选取样本。再将实际输出 o i 与理想输出 y i 做比较,根据感知机学习规则调整权值。如果两者的值是一致的,说明输出达到理想状态,不再需要对感知机进行调整。如果两者的值是不一致的,说明输出没有达到理想状态,需要对权值进行调整,调整权值后,再根据输入样本重新计算,直到最后的输出达到理想状态。选择下一个样本重复上述计算,直到所有样本预测正确或误差不超过指定范围。

图2.17 感知机神经元学习算法基本思路

2.3.3 感知机神经元的学习规则

常见的感知机的学习规则包括随机学习、Hebb学习、基于误差的学习等。其中,随机学习是随机更新权值矩阵 W 和偏置矩阵 B 。随机学习的思路是:先进行随机赋值,然后对赋值进行修正。首先在一个小范围(- δ, + δ )内给 w b 赋予初始值。利用 w b 计算输出 o ,考虑它与真实值 y 的误差‖ o-y <ε 是否成立。当判断出 w b 不合适的时候,在 w b 上加上一个很小的范围内的随机数(- ξ, + ξ ),再重新判断。随机学习通常耗时较长,学习效率低,但其思想简单,实现容易,且具有能找到全局最优解等特点,在对其搜索方法进行改进后,也能够具备一定的实际应用意义。

第二种学习规则是Hebb学习。1949年,心理学家Donald Olding Hebb提出了关于神经网络学习机理的“突触修正”假设。该假设指出,当神经元的突触前膜电位与后膜电位同时为正时,突触传导增强;当前膜电位与后膜电位正负相反时,突触传导减弱。根据该假设定义的权值调整方法,称为Hebb学习规则。Hebb学习的权值调整量Δ w 与输入 x 和输出 o 的乘积成比例,输出 o 可以根据输入 x 、参数 w ,以及函数 f 来获得:

则权值的新值是:

其中,比例系数 η 叫作学习率,决定学习的速度。 η 越大,权值改变得越快。

1.示例:Hebb学习

假设有三个输入向量:

x 1 =(1,-2,1.5), x 2 =(1,-0.5,-2), x 3 =(0,1,-1).

初始化权值为 w 0 =(1,-1,0),向量点积为net= w · x ,设置阈值函数为 o = f (net)=Sgn(net)。则权值更新:

w new = w old + ηo x

其中, η 是学习率,本例中假定 η =1。输入第一个样本 x 1 时,权值更新如下:

net 1 = w 0 · x 1 =(1)(1)+(-1)(-2)+(0)(1.5)=3,

o 1 = f (net 1 )=Sgn(3)=1,

w 1 = w 0 + ηo 1 x 1 =(1,-1,0)+(1,-2,1.5)=(2,-3,1.5).

随后输入第二个样本 x 2 ,则:

net 2 = w 1 · x 2 =(2)(1)+(-3)(-0.5)+(1.5)(-2)=0.5,

o 2 = f (net 2 )=Sgn(0.5)=1,

w 2 = w 1 + ηo 2 x 2 =(2,-3,1.5)+(1,-0.5,-2)=(3,-3.5,-0.5).

输入第三个样本 x 3 ,权值更新如下:

net 3 = w 2 · x 3 =(3)(0)+(-3.5)(1)+(-0.5)(-1)=-3,

o 3 = f (net 3 )=Sgn(-3)=-1,

w 3 = w 2 + ηo 3 x 3 =(3,-3.5,-0.5)+(-1)(0,1,-1)=(3,-4.5,0.5).

第三种学习规则是基于误差的学习,可以先从数学上来理解基于误差的学习。

假设有一个函数 y = kx ,已知一系列的( x i ,y i ),要求解参数 k 。对于初始的( x y ),首先随机选取一个 k ,如果 kx 的值远远小于 y ,则大幅度增加 k 的值,再用 kx y 进行比较;如果 kx 的值远远大于 y ,则大幅度减小 k 的值。如果 kx y 的值相差很大,则增大对 k 值的修改幅度,如果 kx y 的值相差较小,则减小对 k 值的修改幅度。重复迭代多次后,可以学习到使得 y = kx 成立的 k

在基于误差的学习中,假设 y i 是期望输出, o i = f w · x i )是实际输出,则误差为:

权值的调整公式为:

这就是基于误差的学习的一个基本思路。

2.示例:基于误差的学习

假定学习率 η =0.1,阈值即误差允许范围 θ =0。有三个输入向量:

x 1 =(-1,1,-2), y 1 =-1,

x 2 =(-1,0,1.5), y 2 =1,

x 3 =(-1,-1,1), y 3 =1.

初始化权值为 w 0 =(0.5,1,-1),向量点积为net= w · x ,设置阈值函数为 o = f (net)=Sgn(net)。在输入第一个样本 x 1 后对权值进行更新:

net 1 = w 0 · x 1

=(0.5)(-1)+(1)(1)+(-1)(-2)=2.5,

o 1 = f (net 1 )=Sgn(2.5)=1,

w 1 = w 0 + η y 1 - o 1 x 1

=(0.5,1,-1)+0.1(-1-1)(-1,1,-2)=(0.7,0.8,-0.6).

输入第二个样本 x 2

net 2 = w 1 · x 2

=(0.7)(-1)+(0.8)(0)+(-0.6)(1.5)=-1.6,

o 2 = f (net 2 )=Sgn(-1.6)=-1,

w 2 = w 1 + η y 2 - o 2 x 2

=(0.7,0.8,-0.6)+0.1(1-(-1))(-1,0,1.5)=(0.5,0.8,-0.3).

输入第三个样本 x 3

net 3 = w 2 · x 3

=(0.5)(-1)+(0.8)(-1)+(-0.3)(1)=-1.6,

o 3 = f (net 3 )=Sgn(-1.6)=-1,

w 3 = w 2 + η y 3 - o 3 x 3

=(0.5,0.8,-0.3)+0.1(1-(-1))(-1,-1,1)=(0.3,0.6,-0.1).

继续输入样本进行训练,直到 e p = y p -o p =0, p =1,2,3,…。

此处对这几种感知机的学习算法做简单的总结。

第一是随机学习,它可以是监督学习,也可以是非监督学习。对于监督学习判断其最终的输出是否正确,对于非监督学习可以判断其结果是否符合某些分布。第二是Hebb学习,它同样可以是监督学习和非监督学习。第三是基于误差的学习,这里需要明确的是,基于误差的学习中的误差,来自理想输出和实际输出之间的误差。因为需要理想输出来进行误差修正,因此它是典型的监督学习。这三种方法各有优劣,随机学习非常简单,但非常耗时;Hebb学习更加符合生物学上的学习机制;相较于其他两种方法,基于误差的学习的效率和结果都相对更好。现在占据主流的是基于误差的学习方法。

2.3.4 神经元模型的特性

神经元模型具有“多输入-单输出”的结构特征,众多的树突为神经信号提供输入通道,单一的轴突为神经信号提供输出通道。神经元模型还具有“整合-激发”的功能特征,整合包括时间整合与空间整合功能,激发神经冲动包括“全或无”式的兴奋与抑制功能。同时,它通过连接权值的存储与更新还具有记忆和学习能力。因此,人工神经元就是一个具有记忆功能的输入权值化的“多输入-单输出”“整合-激发”装置。它是一个信息处理单元,也是一个自动机,根据结构、功能、记忆和学习的方式不同,可以分为不同形式的神经元。

思考

是否还有其他的学习方式?

可以从其他的物理学模型(例如物理的RC电路模型)来获得灵感,具体考虑如何整合、激发以及模拟。 dpOEKJu0KAGu4TZOcRE/cwUbQUNmTqWORfLIdEOOdYVgmuv1E6gk0xi1bk8uDOYV

点击中间区域
呼出菜单
上一章
目录
下一章
×