本节将介绍生物神经元模型,以及人工神经元模型中最经典的MP神经元。生物神经元即生物神经系统中的神经元,是神经系统中的基本结构和功能单元,生物神经元能感知环境的变化,再将信息传递给其他神经元。MP神经元则是按照生物神经元的结构和工作原理构造出来的简化模型。
生物神经元(见图2.1)是构成生物神经系统的基本单位,主要由细胞体、树突、轴突和突触等构成,其主要功能是接收、处理和传递神经信号。细胞体是神经元的控制中心,也是细胞核所在的位置。细胞体周围如同树形的杂乱部分统称为树突,像长轴一样的突起部分称为轴突。突起部位的尾部是神经末梢,大体可以分为感觉神经末梢和运动神经末梢,感觉神经末梢主要位于皮肤、肌肉、骨骼、内脏等组织中,它们负责感知外界刺激和内部机体状态,运动神经末梢则连接到肌肉和腺体等效应器官,控制它们的运动和分泌。神经末梢和后面的树突之间相互接触的结构,称为突触,突触分为化学突触和电突触两种类型,化学突触通过释放神经递质来传递信号,而电突触则通过电流直接传递信号。
计算只发生在细胞体当中,树突和轴突都是用来传递信息的,这三部分组成了神经细胞的基本模型。细胞体的边界是细胞膜,细胞膜将膜内外分开,膜内外溶液存在离子浓度差,从而产生电位差,这种电位差也被称为膜电位。当膜内外溶液浓度差发生改变时,也会带来电位差的改变,进而产生相应的生理活动。生理活动一般分为兴奋及抑制两种。例如,听到一个好消息时,大脑会发生相应的化学变化,也就是细胞膜内外的离子浓度差会发生变化,产生电位差,进而释放一些化学成分,让人感到兴奋;而得到一个坏消息时,膜内外的离子浓度差发生相反的变化,产生相反的电位差,一些起抑制作用的成分将被释放。
图2.1 生物神经元
外部的刺激主要从树突传来,从细胞体向外延伸出的很多树突负责接收来自其他神经元的信号,相当于神经元的输入端。而轴突是从细胞体向外延伸出的最长的一条突起。轴突比树突长而细,轴突也叫神经纤维,末端处有很多细的分支称为神经末梢,每一条神经末梢可以向四面八方传出信号,相当于神经元的输出端。
一个神经元通过其神经末梢处的突触和另一个神经元的树突进行通信连接,这种由突触建立的连接相当于神经元之间的输入/输出接口。信号传递主要是由神经末梢释放的神经递质来完成的,神经递质将通过突触漂移到后方,与后方树突处的细胞膜相结合产生化学反应,形成刺激信号,影响后续神经元的离子浓度差,进而产生电位差,信息以电信号的方式继续向后传递。生物神经元信号传递过程如下:其他神经元的信号通过树突传递到细胞体中,细胞体对其他多个神经元传递进来的输入信号进行合并加工,然后再通过轴突末端的突触将输出信号传递给其他的神经元。图2.2为生物神经元信号传递过程。
信息的合并实际上是将不同的输入信号进行时间和空间的整合。例如,从时间上对来自同一个突触的持续不断的神经冲动的整合称为时间的整合,对同一时间不同突触输入的信号的整合称为空间的整合。信息整合完成后,还要对它做进一步加工,形成动作电位,并沿着轴突向后传递。 神经元是一个信息整合和加工装置,通过人工方式模拟这样的信息整合和加工装置,就是人工神经元。
图2.2 生物神经元信号传递过程
假设一个神经元从其他多个神经元接收了输入信号,如果所接收的信号之和比较小,没有超过这个神经元固有的被激活的边界值(称为阈值),这个神经元的细胞体就会忽略接收到的信号,不做任何反应。对于生命体来说,神经元忽略微小的输入信号是十分重要的,因为如果神经元对于任何微小的信号都变得兴奋,神经系统就将极不稳定。反之,如果输入信号之和超过了神经元固有的阈值,细胞体就会做出反应,向与轴突连接的其他神经元传递信号,这就是神经元的激发(见图2.3)。激发时神经元输出信号的大小是固定的,即便从邻近的神经元接收到很大的刺激,或者轴突连接着其他多个神经元,这个神经元也只输出固定大小的信号。
图2.3 神经元的激发
1943年,根据生物神经元的结构和工作原理,沃伦·斯特吉斯·麦卡洛克(Warren Sturgis McCulloch)和沃尔特·哈利·皮茨(Walter Harry Pitts)提出几点假设:每个神经元都是一个多输入/单输出的信息处理单元;神经元输入分兴奋性输入和抑制性输入两种类型;神经元具有空间整合特性和阈值特性;神经元输入与输出间有固定的时滞,主要取决于突触间传播的延迟。在忽略时间整合作用和不应期(神经元在激发后的一段时间内不再接收输入)等性质的前提下,他们基于这些假设,抽象出一个类神经元的运算模型,称为MP模型,如图2.4所示。MP神经元的出现标志着人工神经网络的起源,在神经网络历史上十分重要。在图2.4中,
x
i
表示来自第
i
个神经元的输入,图中的箭头可以理解成轴突,
w
i
则可以理解为前一个神经元的轴突到后一个神经元的树突的传递强度。中间的圆形部分为细胞体,这里也称其为神经元。神经元中进行整合-激发的流程如下:首先对
x
i
加权求和,即用
表示整合,用
θ
表示激发阈值,当整合值大于阈值时,神经元激活并传递激活信息,整合值小于阈值则不传递信息,
f
被称为阈值函数。
图2.4 MP神经元的图形表示
1.MP神经元的数学表示
假设MP神经元的输入空间是 X ⊆ℝ n ,输出空间是 Y ={0,1}。输入( x 1 , x 2 ,…, x n )∈ X 表示一个实例的特征向量,对应于输入空间(特征空间)的一个点,输出 y ∈ Y 表示实例的类别。MP神经元模型对多个输入进行整合,并根据阈值 θ 来判断兴奋/抑制:
MP模型中的 w 1 , w 2 ,…, w n 和 θ 是参数,需要人工进行设定。 z 实际上是一个以 x 1 ,…, x n 为未知量, w 1 ,…, w n 为参数的线性函数。如果以 x i 为组合对象,那么 z 是一个以 w i 为系数的关于 x i 的线性组合,神经元的整合实际上就是对输入做线性组合,形成对神经元的总输入。
2.MP神经元的特征
MP神经元是一种二值模型,其中自变量及其函数的值只取0和1。MP神经元之间由有方向的、带权值的路径联系,当权值为正时,连接为刺激性的,当权值为负时,连接为抑制性的。MP神经元有一个固定的阈值,只有当输入的整合值大于阈值时,才会激发。
MP神经元具有固定的权值和阈值,每个神经元都可以用来表示一个简单的逻辑函数。任意命题逻辑都可以用两层以内的MP模型计算,所有的命题逻辑函数都可以用MP AND逻辑门、MP OR逻辑门、MP NOT逻辑门予以表达和实现。
信号在MP神经元之间的传递需要花费一个时间单位,采用离散时间,能够使用MP模型来模拟有时间延迟的物理现象,例如当人的皮肤触碰到尖锐物体时,痛觉经过一段时间后才能传导至大脑。
MP模型具有神经计算模型的一般特性,可表达一般人工神经网络的赋权连接。之后大部分的神经元结构都采用MP神经元的多输入-单输出模式,而多输入-单输出的神经元可以通过不同的连接方式构成不同类型的神经网络。神经元内部对数据进行简单的线性或非线性变换来实现对数据的拟合,而神经网络则通过整合多个神经元实现对复杂任务的处理。
MP神经元是一种经典的神经元,具有很多优良的性质,但同样也存在着不足,其最大的问题在于它的权值和阈值需要用户手动指定。这意味着MP神经元不具备学习的能力,即不具备自主修正参数的能力。
思考
怎样用MP神经元实现与、或、非逻辑运算?
可以将( x 1 , x 2 )视为输入, y 视为输出分类,通过MP神经元表达从( x 1 , x 2 )到 y 的映射关系。
3.示例:用MP神经元实现简单二分类器
任务: 使用一个MP神经元实现简单二分类器。
分类数据 :图2.5左边表格所示为输入( x 1 , x 2 )及标签 y ,右边图片为输入数据在二维图上的可视化结果。
图2.5 输入数据及可视化结果
输入: x 1 和 x 2 。
输出: 正确的类别。
神经元实现:
(1)设置权值 w 1 , w 2 ,在这里设定两个权值都为1。
(2)计算过程:
1)整合网络输入, z = w 1 x 1 + w 2 x 2 = x 1 + x 2 。
2)使用阈值函数 f 得到输出 o ,设定阈值为0.5:
对四组输入,神经元的输出结果如图2.6左边的表格所示。
图2.6 决策边界
图2.6左边的表格说明,神经元根据预先设置的阈值0.5以及简单的阈值函数 f 就可以对数据进行正确的分类。事实上,给定阈值以及对应的阈值函数,相当于决定了一个分类界限(决策边界),此例中的决策边界可以表达为 x 1 + x 2 =0.5,在由 x 1 , x 2 组成的二维平面中,它表示一条直线,如图2.6所示。
有了决策边界以后,边界下方的任何一点都符合 x 1 + x 2 < 0.5,边界上方的任何一点都符合 x 1 + x 2 > 0.5,所有的点被决策边界分为上下两类,从而实现用一个MP神经元进行分类。
4.MP神经元的发展
MP神经元的设计遵循奥卡姆剃刀理念,即“如无必要,勿增实体”,也称“简单有效原理”,简单的结构让其在很多任务中都减弱了过拟合的影响。随着对MP神经元研究的深入,人们将其变为连续形式,并应用于更多的连接结构(例如卷积结构、循环结构等)中,从而产生了当下十分丰富的神经网络模型。
MP神经元是延展性最好的一种神经元。研究者根据生物学理论和非线性理论提出过很多种神经元模型,例如脉冲神经元和乘法神经元,但往往存在神经元结构过于复杂或者计算量过大的问题。
思考
还可以从哪些方面来改进MP神经元?
1.是否可以设计带有时间延迟特性的MP神经元?
2.神经元结构本身是否可以随着时间发生变化?
3.在MP神经元表示中,如何考虑时间整合作用和不应期?