深度学习（一）优化算法之动量法详解_华宇-华宇娱乐新能源开发

深度学习（一）优化算法之动量法详解

栏目：行业资讯发布时间：2024-05-13

使用梯度下降法，每次都会朝着目标函数下降最快的方向，这也称为最速下降法。这种更新方法看似非常快，实际上存在一些问题。考虑一个二维输入，[x1,x2][x_1,x_2][x1?,x2?]，输出的损失函数L:R2RL:R^2\rightarrowRL:R2R，下面是这个函数的等高

使用梯度下降法，每次都会朝着目标函数下降最快的方向，这也称为最速下降法。这种更新方法看似非常快，实际上存在一些问题。

考虑一个二维输入， $x_1, x_2]$ ，输出的损失函数 $R^2 \rightarrow R$ ，下面是这个函数的等高线：

在这里插入图片描述

可以想象成一个很扁的漏斗，这样在竖直方向上，梯度就非常大，在水平方向上，梯度就相对较小，所以我们在设置学习率的时候就不能设置太大，为了防止竖直方向上参数更新太过了，这样一个较小的学习率又导致了水平方向上参数在更新的时候太过于缓慢，所以就导致最终收敛起来非常慢。

动量法的提出就是为了应对这个问题，我们梯度下降法做一个修改如下：

$v_i = \gamma v_{i-1} + \eta abla L( heta)$

$_i = heta_{i-1} - v_i$

其中 $v_i$ 是当前速度， $\gamma$ 是动量参数，是一个小于 1的正数， $\eta$ 是学习率

相当于每次在进行参数更新的时候，都会将之前的速度考虑进来，每个参数在各方向上的移动幅度不仅取决于当前的梯度，还取决于过去各个梯度在各个方向上是否一致，如果一个梯度一直沿着当前方向进行更新，那么每次更新的幅度就越来越大，如果一个梯度在一个方向上不断变化，那么其更新幅度就会被衰减，这样我们就可以使用一个较大的学习率，使得收敛更快，同时梯度比较大的方向就会因为动量的关系每次更新的幅度减少，如下图

在这里插入图片描述