深度学习优化策略

指数移动平均

指数移动平均（Exponential Moving Average, EMA）也叫权重移动平均（Weighted Moving Average），是一种权重的平均方法，该可以方法给予近期数据更高的权重

$v_{t} = \beta\cdot v_{t-1} + (1 - \beta)\cdot \theta_{t}$

$v_{t - 1}$ $t-1$ $\theta_{t}$ $\beta$ $0.9～0.999$

当前时刻的权重可以近似认为是之前梯度和，即

\begin{matrix} (1) & θ_{t} = θ_{0} - \sum_{i}^{n - 1} g_{i} \end{matrix}

那么EMA的影子权重可以表示为

\begin{matrix} (2) & v_{n} = θ_{0} - \sum_{i = 0}^{n - 1} (1 - β^{n - i}) g_{i} \end{matrix}

可以看做是对每次的梯度加权，将学习率动态的减小

Pytorch中的自带的OneCycleLR可以动态的设置学习率，其使用方法较为简单，只需在现有的代码中加入两行代码即可实现。

首先，使用OneCycleLR在定义优化器后定义lr_scheduler


xxxxxxxxxx
optimizer = torch.optim.Adam(optim_params, lr, weight_decay = )
lr_scheduler = torch.optim.lr_scheduler.OneCycleLR(optimizer, ... )

其中，函数的参数有：

其次，在原代码梯度反传后更新学习率


xxxxxxxxxx
loss.backward()
opyimizer.step()
lr_scheduler.step()

同时，可以通过optimizer.param_groups[0]['lr']获取训练过程中的学习率