机器学习中常用的损失函数,包括平方损失、对数损失、合页损失、指数损失和交叉熵损失等,这里不具体展开。对于执行分类任务的深度学习模型来说,最常用的损失函数是交叉熵损失函数。例如,二分类的交叉熵损失函数,如式(3.2)所示。
对于交叉熵损失函数的优化,通常采用基于梯度下降的算法框架对其进行优化迭代求解。这其中除原始的梯度下降法(Gradient Descent, GD)之外,根据一次优化所需要的样本量的不同又可分为随机梯度下降法(Stochastic Gradient Descent, SGD)和小批量梯度下降法(MiniGBatch Gradient Descent, MBGD)。之后又引入了带有历史梯度加权的动量梯度下降法(Momentum)、均方根加速算法(Root Mean Square Prop, RMSProp)及自适应矩估计算法(Adaptive Moment Estimation, Adam)等。
下面就从梯度下降法开始,对常用的深度学习优化算法进行简单介绍,让读者了解深度学习和神经网络优化求解中常用算法的基本原理,知道神经网络是如何进行优化和参数更新的,以便以后在调包对深度学习框架封装好的算法进行使用时,知其然亦知其所以然。