智能计算系统：从深度学习到大模型最新章节_陈云霁著

2.2.3 深度学习

相对于浅层神经网络，深度学习（深层神经网络）的隐层可以超过1层。图2.7的多层神经网络有2个隐层。该神经网络的计算包括从输入算出第1个隐层，从第1个隐层算出第2个隐层，从第2个隐层算出输出层。随着层数的增加，神经网络的参数也显著增多。该三层神经网络共有29个参数，包括第一层的6个权重和2个偏置，第二层的6个权重和3个偏置，第三层的9个权重和3个偏置。

图2.7 多层神经网络

早期深度学习借鉴了灵长类大脑皮层的6层结构。为了提高图像识别、语音识别等应用的准确率，深度学习不再拘泥于生物神经网络的结构，现在的深层神经网络已有上百层甚至上千层，与生物神经网络有显著的差异。随着神经网络层数的增多，神经网络参数的数量也大幅增长，2012年的AlexNet ^[16] 中有6000万个参数，现在的大模型中参数数量可以达到上千亿个 ^[34] 甚至万亿个 ^[35] 。

深度学习的工作原理是，通过对信息的多层抽取和加工来完成复杂的功能。图2.8展示了深度学习在不同层上抽取出的特征 ^[36] 。在第一层，深度学习通过卷积提取出局部比较简单的特征，如对角线；在第二层，可以提取到一些稍大范围稍复杂的特征，如条纹状的结构；在第三层，可以提取到更大范围更复杂的特征，如蜂窝网格的结构；最后，通过逐层细化的抽取和加工，可以完成很多复杂的功能。深度学习的具体内容将在第3章详细介绍。

应该说，从浅层神经网络向深层神经网络发展，并不是很难想象的事情。但是，深度学习（深层神经网络）的真正兴起到2006年才开始。除了G.Hinton、Y.LeCun和Y.Bengio等人的推动外，深度学习之所以能成熟壮大，得益于ABC三方面的影响：A是Algorithm（算法），B是Big data（大数据），C是Computing（算力）。算法方面，深层神经网络训练算法日趋成熟，其识别准确率越来越高；大数据方面，互联网企业有足够多的大数据来做深层神经网络的训练；算力方面，现在的一个深度学习处理器芯片的计算能力比当初100个CPU的还要强。