第1章介绍了数字图像处理和BP神经网络的基础,在以SVM等核方法为代表的传统机器学习算法得到广泛研究并获得优良性能的时期,BP神经网络取得的研究成果并不突出,多层神经网络的训练问题也始终限制着研究人员设计更加复杂的网络结构来完成复杂任务。
直到2006年Geoffrey Everest Hinton等人在 Science 杂志上发表了文章 Reducing the Dimensionality of Data with Neural Networks [1] ,提出了参数逐层初始化的深层神经网络训练方法,研究者才又重新聚焦于多层神经网络的研究,并于随后几年先后在语音识别和图像识别领域取得了巨大成功,从而引领了被重新冠名为“深度学习”的深层神经网络的发展。
20世纪60年代,Hubel和Wiesel在研究猫脑皮层中负责处理局部敏感和方向选择的神经元时,发现一种特别的网络结构会显著降低全连接神经网络的复杂性,随即提出了卷积神经网络(Convolutional Neural Networks,CNN)的概念。CNN是整个深度学习系统中最重要的网络结构,与传统的全连接神经网络不同的是,其不需要对图像进行复杂的预处理,可以直接输入原始图像,因而在计算机视觉领域得到了广泛的应用。