Optimization Algorithms in Deep Learning

GD

Adam算法是随机梯度下降算法的扩展，通过计算梯度的一阶矩估计和二阶矩估计而为不同的参数设计独立的自适应性学习率。算法结合了Momentum和RMSprop，同时借助指数平均（EMA）的思想来对偏差进行矫正

Initilize:
- $\omega_t$ $m_0 = 0$ $v_0 = 0$
for t = 1, ..., T -1 do
- $m_t = β_1 * m_{t-1} + (1 - β_1) * g_t$
- $v_t = β_2 * v_{t-1} + (1 - β_2) * g_t^2$
- $\hat{m}_t = m_t / (1 - β_1^t)$
- $\hat{v}_t = v_t / (1 - β_2^t)$
- $\omega_t = \omega_{t - 1} - α * \hat{m}_t / (\sqrt{\hat{v}_t} + \varepsilon)$
end for

$\alpha$ $\beta_1$ $\beta_2$ $\varepsilon$ $\varepsilon = 10^{-8}$ 。

$\eqref{eq:adamw}$ ），其余部分与Adam算法保持相同。

\begin{matrix} (1) & ω_{t} = ω_{t - 1} - α * ({\hat{m}}_{t} / (\sqrt{{\hat{v}}_{t}} + ε) + λ * ω_{t - 1}) \end{matrix}

$\lambda$ $0.005/0.01$ 。

Trust Ratio $\eqref{eq:lamb_tr}$ ）进行放缩，其余部分则是与AdamW保持相同。

\begin{matrix} (2) & t r u s t_r a t i o = ϕ (\frac{‖ ω_{t - 1} ‖}{‖ {\hat{m}}_{t} / (\sqrt{{\hat{v}}_{t}} + ε) + λ * ω_{t - 1} ‖}) \\ (3) & ω_{t} = ω_{t - 1} - α * t r u s t_r a t i o n * ({\hat{m}}_{t} / (\sqrt{{\hat{v}}_{t}} + ε) + λ * ω_{t - 1}) \end{matrix}

$\phi(\cdot)$ $\phi(z) = z$ $batch\_size < 512$ 时无法起到显著作用。