人工神经网络(Artificial Neural Network,ANN)在工程与学术界常直接简称为“神经网络”或“类神经网络”。神经网络的研究内容相当广泛,反映了多学科交叉技术领域的特点。
神经网络是一种运算模型,由大量的节点(或称神经元)相互连接构成。每个点代表一种特定的输出函数,称为激励函数。
可以将人工神经元逻辑放在二元分类场景,将两个类分别命名为1(正类)和-1(负类),定义决策函数 φ ( z ),接收输入值 x 及其相应权重 w , z 为输入值与权重的乘积累加和, z = w 1 x 1 +…+ w m x m ,其中
如果某个特定样本的净输入值 x ( i )比定义的阈值 θ 大,则预测结果为1,否则为-1。
为了简化,把阈值 θ 放到等式左边,权重定义为 w 0 =- θ , x 0 =1,这样 z 为 z = w 0 x 0 + w 1 x 1 +…+ w m x m = w T x 。
机器学习中通常称 w 0 =- θ 为偏置。
Rosenblatt在1958年引入了一种学习规则,用来训练感知机完成模式识别问题,随机地选择权重系数初值,将训练样本集合输入感知机,那么神经网络根据目标和实际输出的差值自动地学习。
学习规则也称为训练算法,即更新网络权重系数和偏置向量的方法。学习规则可分为有监督学习、无监督学习及强化学习。
(1)有监督学习。
事先具有一个训练集合:
{( p 1 , t 1 ),( p 2 , t 2 ),…,( p N , t N )}
其中, p n ( n =1,2,…, N )表示网络输入, t n ( n =1,2,…, N )是正确的目标(target),有时候分类里称为“标签”。学习规则不断地调节网络权重系数和偏置向量,使得网络输出和目标越来越接近。感知机的学习是有监督学习。
(2)无监督学习。
无监督学习的核心往往是希望发现数据内部潜在的结构和规律,为进行下一步决策提供参考。典型的无监督学习就是希望能够利用数据特征来把数据分组,也就是“聚类”。通常情况下,无监督学习能够挖掘出数据内部的结构,而这些结构可能会比提供的数据特征更能抓住数据的本质联系。因此,监督学习中往往也需要无监督学习来进行辅助。
(3)强化学习。
强化学习强调基于环境而行动,以取得最大化的预期利益,即如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。没有监督标签,只会对当前状态进行奖惩和打分,评价有延迟,往往需要过一段时间才知道当时的选择是好还是坏。每次行为都不是独立的数据,每一步都会影响下一步。目标也是如何优化一系列的动作序列以得到更好的结果。应用场景往往是连续决策问题。强化学习方法是在线学习思想的一种实现。
感知机学习规则是有监督学习,看一个简单的例子,从中总结学习规则。已经知道一组训练数据集合为
如图2-1所示,可以将上述三个标签数据进行几何表示。
图2-1 数据的几何表示
只用一个最简单的无偏置硬限制(hard limit)神经元来完成这个数据分类问题。训练开始时随机选择一个权行向量:
w = (1,-0.8)
(1)开始训练第一个数据:
感知机的输出为
图2-2为感知机输出效果。
图2-2 感知机输出效果
由图2-2可看出,输出结果与目标 t 1 =1不符合。
那么学习方法是将向量
加到
w
=(1,-0.8)上,让决策边界线向目标靠近,因此权向量学习为
按照这新的权向量,那么
,与目标
t
1
=1符合。
(2)继续训练第二个数据
,这时
w
new
=
w
old
已经变成旧的权向量了。感知机输出为
,与目标
t
2
=0不符合。
学习方法是将向量
加到
w
old
上,让决策边界线远离目标
p
2
,因此权向量的学习为
其决策边界效果如图2-3所示。
图2-3 决策边界效果
按照这新的权向量,那么
,这与目标
t
1
=1符合。
,与目标
t
2
=0符合。
(3)和上面分析一样
。
,与目标不符合。
学习方法是
,让决策边界线远离目标
p
3
,因此权向量的学习为
此时
对于三个标签数据都分类正确,训练完毕。
设误差(向量)为
e = t - a
如果误差 e =1,则
w new = w old + p T
如果误差 e =-1,则
w new = w old - p T
如果误差 e =0,则
w new = w old
这三种情况可以合成为
w new = w old + e p T
b new = b old + e
虽然上面的例子没有偏置向量,但是可以将其看成输入总是1的一个标量或者向量。推广到多个神经元的感知机,学习规则为
w new = w old + e p T
b new = b old + e