人工智能原理与实践最新章节_刘春雷著

4.2 梯度下降优化

严格来说，梯度下降并不是一种机器学习算法，但它是算法优化的一个重要手段，即通过最小化损失函数获得算法相关参数的最佳值。由微积分理论可知，梯度为函数在变量空间中任意一点变化率最大的方向导数，即函数沿着梯度方向有最大的变化率。而当函数达到最小值时，所对应的导数值为0。由于函数沿着梯度方向具有最大的变化率，那么在最小化目标函数时，应该沿着负梯度方向才能减小函数值。重复这一过程至函数值不再发生明显的变化时，则说明已经达到了优化目标。

首先，对于k+1个维度的变量函数，梯度就是偏导数的集合，即

根据向量运算法则，沿着负梯度方向进行迭代搜索，直到函数值不再发生较大的变化（不再发生变化的判断，需要根据事先设定的阈值比较每次搜索前后的函数值）或迭代次数达到事先规定的上限。在每一次迭代搜索中，变量随着梯度变化的形式如下：

式中，θ为步长，用于控制在变量空间的搜索优化速度。

购买书籍时，会优先扣除您的代金券，再扣除阅饼；当您的余额不足时，可使用微信或支付宝支付，补足差价；
连载书籍勾选自动购买下一章后，会自动扣费，已购章节不会重复扣费；
书籍购买记录请至我的—购书记录中查询