Adam算法是随机梯度下降算法的扩展,通过计算梯度的一阶矩估计和二阶矩估计而为不同的参数设计独立的自适应性学习率。算法结合了Momentum和RMSprop,同时借助指数平均(EMA)的思想来对偏差进行矫正
Initilize:
model parameters
for t = 1, ..., T -1 do
Update parameters:
end for
其中,
AdamW是对Adam的进一步拓展,其目是解决Adam的过拟合问题,具体是在参数更新(Update parameters)时引入前一时刻的参数(式
其中,
LAMB同样是Adam优化器的扩展,旨在解决在缩放不同层或参数的梯度更新时的局限性,使模型在进行大批量数据训练时,能够维持梯度更新的精度。LAMB在AdamW 的基础上对每一层的学习率使用Trust Ratio(式
其中,