扩散模型

一般框架SDE

扩散模型的前向过程是由随机微分方程（SDE）描述的线性扩散

\begin{matrix} (1) & d x = F_{t} x d t + G_{t} d ω \end{matrix}

$M$ $N$ $\boldsymbol{F}_{t} \in \mathbb{R}^{M\times N}$ $\boldsymbol{G}_t \in \mathbb{R}^{M\times N}$ $\boldsymbol{\omega}$ 为标准的为维纳过程

$\eqref{eq:sde_forward}$ $\eqref{eq:deis_reverse}$ 所示的SDE函数族表示：

\begin{matrix} (2) & d x = [F_{t} x - \frac{1 + λ^{2}}{2} G_{t} G_{t}^{⊤} \nabla \log p_{t} (x)] d t + λ G_{t} d ω \end{matrix}

$\lambda \ge 0$ $\lambda = 1$ $\eqref{eq:sde_reverse}$ 对应的SDE反向过程

\begin{matrix} (3) & d x = [F_{t} x d t - G_{t} G_{t}^{⊤} \nabla \log p_{t} (x)] + G_{t} d ω \end{matrix}

$\lambda = 0$ 时，反向过程中的方差为0，SDE退化为概率流ODE。

$\nabla\log{p_t(\boldsymbol{x})}$ $\boldsymbol{s}_{\theta}(\boldsymbol{x}_t, t)$ $\eqref{eq:deis_reverse}$ 实现数值求解，完成扩散模型的反向过程

拟合误差

概率流ODE

概率流ODE为确定性的微分方程，

\begin{matrix} (4) & d x = [F_{t} x - \frac{1}{2} G_{t} G_{t}^{⊤} \nabla \log p_{t} (x)] d t \end{matrix}

Euler解法

\begin{matrix} (5) & {\hat{x}}_{t - Δ t} = {\hat{x}}_{t} - [F_{t} x_{t} + \frac{1}{2} G_{t} G_{t}^{⊤} L_{t}^{- ⊤} ϵ_{θ} (x_{t}, t)] Δ t \end{matrix}

指数积分（EI）解法

\begin{matrix} (6) & x_{t - Δ t} = e^{\int_{t}^{t - Δ t} F_{τ} d τ} x_{t} + \int_{t}^{t - Δ t} \frac{1}{2} e^{\int_{τ}^{t - Δ t} F_{r} d r} G_{τ} G_{τ}^{⊤} L_{t}^{- ⊤} ϵ_{θ} (x_{τ}, τ) d τ \end{matrix}

DDIM

$p(x_{1:t})$ $p(x_{t}|x_{0})$ $p(x_{t-1}|x_{t}, x_{0})$ $p(x_{t-1}|x_{t}, x_{0})$ $\eqref{eq:ddim_psigma}$ ：

\begin{matrix} (7) & p (x_{t - 1} | x_{t}, x_{0}) \sim N (x_{t - 1}; \sqrt{{\bar{α}}_{t - 1}} x_{0} + \sqrt{{\bar{β}}_{t - 1} - σ_{t}^{2}} \cdot \frac{x_{t} - \sqrt{{\bar{α}}_{t}} x_{0}}{\sqrt{1 - {\bar{α}}_{t}}}, σ_{t}^{2} I) \end{matrix}

其中，

\begin{matrix} (8) & σ_{t} = η \sqrt{\frac{{\bar{β}}_{t - 1} β_{t}}{{\bar{β}}_{t}}} \end{matrix}

$\eta$ $\boldsymbol{\epsilon}_{\theta}\left(\boldsymbol{x}_{t}, t\right)$ $\boldsymbol{x}_{0}$ 得到

\begin{matrix} (9) & x_{t - 1} = \frac{1}{\sqrt{α_{t}}} (x_{t} - (\sqrt{{\bar{β}}_{t}} - \sqrt{α_{t}} \sqrt{{\bar{β}}_{t - 1} - σ_{t}^{2}}) ϵ_{θ} (x_{t}, t)) + σ_{t} ϵ \end{matrix}

DPM-Solver

半线性公式

$f_{t}\boldsymbol{x}_{t}$ 是可以准确的计算的，之前的采样算法忽略了这一点，从而导致对ODE方程的数值解法会产生较大的拟合误差，算法的加速性能不好。因此，在DPM-Solver中，作者将线性项与非线性项分开，对非线性项采用数值解法，从而减少了拟合误差。

$\lambda_{t} = log({\bar{\alpha}_{t}} / {\sigma_{t}})$ $g^2(t)$ $\lambda_t$ 的函数：

\begin{matrix} (10) & g^{2} (t) = {\bar{α}}_{t}^{2} \frac{d}{d t} (\frac{σ_{t}^{2}}{{\bar{α}}_{t}^{2}}) = - 2 σ^{2} \frac{d λ_{t}}{d t} \end{matrix}

$\eqref{eq:ode_EI}$ 进行参数替换，同时代入VP-SDE前向过程对应的参数，得到：

\begin{matrix} (11) & x_{t} = \frac{{\bar{α}}_{t}}{{\bar{α}}_{s}} x_{s} - {\bar{α}}_{t} \int_{s}^{t} (\frac{d λ_{τ}}{d τ}) \frac{σ_{τ}}{{\bar{α}}_{τ}} ϵ_{θ} (x_{τ}, τ) d τ \end{matrix}

$\lambda_{t}$ $t_{\lambda}(\cdot)$ $t = t_{\lambda}(\lambda(t))$ $\eqref{eq:ode_dpmsolver1}$ 进行变量替代后，得到：

\begin{matrix} (12) & x_{t} = \frac{{\bar{α}}_{t}}{{\bar{α}}_{s}} x_{s} - {\bar{α}}_{t} \int_{λ_{s}}^{λ_{t}} e^{- λ} ϵ_{θ} (x_{λ}, λ) d λ \end{matrix}

$\eqref{eq:ode_dpmsolver2}$ 给出了ODE解法的新视角——只需要对指数积分项进行估计，从而避免了估计线性项带来的误差。

数值估计

$\boldsymbol{\epsilon}_{\theta}\left(\boldsymbol{x}_{\lambda}, \lambda\right)$ $\eqref{eq:dpmsolver_taylor}$ $\eqref{eq:dpmsolver}$ ：

\begin{matrix} (13) & ϵ_{θ} (x_{λ}, λ) = \sum_{n = 0}^{k - 1} \frac{(λ - λ_{t_{i}})^{n}}{n!} ϵ_{θ}^{(n)} (x_{λ_{t_{i}}}, λ_{t_{i}}) + O ((λ - λ_{t_{i}})^{k}) \end{matrix}

\begin{matrix} (14) & x_{t_{i} \to t_{i - 1}} = \frac{α_{t_{i - 1}}}{α_{t_{i}}} x_{t_{i}} - α_{t_{i - 1}} \sum_{n = 0}^{k - 1} ϵ_{θ}^{(n)} (x_{λ_{t_{i}}}, λ_{t_{i}}) \int_{λ_{t_{i}}}^{λ_{t_{i - 1}}} e^{- λ} \frac{(λ - λ_{t_{i}})^{n}}{n!} d λ + O ((λ - λ_{t_{i}})^{k + 1}) \end{matrix}

$\boldsymbol{\epsilon}_{\theta}^{(n)}\left(\boldsymbol{x}_{\lambda_{t_{i}}}, \lambda_{t_{i}}\right)$ $\boldsymbol{\epsilon}_{\theta}\left(\boldsymbol{x}_{\lambda_{t_{i}}}, \lambda_{t_{i}}\right)$ $n$ $k$ $\int e^{-\lambda} \frac{(\lambda - \lambda_{t_{i}})^{n}}{n!} \mathrm{d}\lambda$ $\boldsymbol{\epsilon}_{\theta}\left(\boldsymbol{x}_{\lambda_{t_{i}}}, \lambda_{t_{i}}\right)$ 的导数，即可实现对非线性部分的估计，而对于其导数的估计已经在现有的文章中有较好的研究。

$k$ $k = 1,2,3$ ，三种不同阶数的DPM-Solver。

与DDIM联系

$\lambda_{t_{i}}$ $\eqref{eq:dpmsolver-1}$ ）中可以得到DDIM对应的微分表达式（待引用DDIM）

\begin{matrix} (15) & x_{t_{i} \to t_{i - 1}} = \frac{α_{t_{i - 1}}}{α_{t_{i}}} x_{t_{i}} - α_{t_{i - 1}} ϵ_{θ} (x_{λ_{t_{i}}}, λ_{t_{i}}) (e^{- λ_{t_{i}}} - e^{- λ_{t_{i - 1}}}) \end{matrix}

因此，DDIM可以看作是DPM-Solver的一种特殊情况，由于充分利用了半线性的特点，因此DDIM相比于传统的Euler数值解法，具有更好的性能。

DEIS

Diffusion Exponential Integrator Sampler (DEIS) $\epsilon_{\theta}(x_{t_{i}}, t_{i})$ $\epsilon_{\theta}(x_{t}, t)$ $r$ $\boldsymbol{P}_{r}(t)$ $\eqref{eq:deis_poly}$ $\epsilon_{\theta}(x_{t}, t)$ 估计的估计误差：

\begin{matrix} (16) & P_{r} (t) = \sum_{j = 0}^{r} [\prod_{k \neq j} \frac{t - t_{i + j}}{t_{i + j} - t_{i + k}}] ϵ_{θ} (x_{t_{i + j}}, t_{i + j}) \end{matrix}

因此，DEIS的采样过程为：

\begin{matrix} (17) & x_{t_{i} \to t_{i - 1}} = Ψ (t_{i - 1}, t_{i}) x_{t_{i}} + \sum_{j = 0}^{r} \int_{t_{i}}^{t_{i - 1}} \frac{1}{2} Ψ (t_{i - 1}, τ) G_{τ} G_{τ}^{⊤} L_{τ}^{- ⊤} [\prod_{k \neq j} \frac{τ - t_{i + j}}{t_{i + j} - t_{i + k}}] ϵ_{θ} (x_{t_{i + j}}, t_{i + j}) d τ \end{matrix}

其中，

\begin{matrix} (18) & Ψ (t_{i - 1}, t_{i}) = e^{\int_{t_{i}}^{t_{i - 1}} F_{τ} d τ} \end{matrix}

$\boldsymbol{y}_{t} = \Psi(0, t)\boldsymbol{x}_{t}$ 进行参数替换，消除ODE方程的非线性，从而使现有成熟的ODE数值解法具有更好的表现。

拟合误差

模型训练

方差估计

Analytic-DPM

\begin{matrix} (19) & \begin{aligned} Σ (x_{t}) = & E_{x_{0} \sim p (x_{0} | x_{t})} [(x_{0} - \bar{μ} (x_{t})) {(x_{0} - \bar{μ} (x_{t}))}^{⊤}] \\ = & E_{x_{0} \sim p (x_{0} | x_{t})} [((x_{0} - \frac{x_{t}}{\sqrt{{\bar{α}}_{t}}}) + \sqrt{\frac{{\bar{β}}_{t}}{{\bar{α}}_{t}}} ϵ_{θ} (x_{t}, t)) {((x_{0} - \frac{x_{t}}{\sqrt{{\bar{α}}_{t}}}) + \sqrt{\frac{{\bar{β}}_{t}}{{\bar{α}}_{t}}} ϵ_{θ} (x_{t}, t))}^{⊤}] \\ = & E_{x_{0} \sim p (x_{0} | x_{t})} [(x_{0} - \frac{x_{t}}{\sqrt{{\bar{α}}_{t}}}) {(x_{0} - \frac{x_{t}}{\sqrt{{\bar{α}}_{t}}})}^{⊤}] - \frac{{\bar{β}}_{t}}{{\bar{α}}_{t}} ϵ_{θ} (x_{t}, t) ϵ_{θ} (x_{t}, t)^{⊤} \\ = & \frac{1}{{\bar{α}}_{t}} E_{x_{0} \sim p (x_{0} | x_{t})} [(x_{t} - \sqrt{{\bar{α}}_{t}} x_{0}) {(x_{t} - \sqrt{{\bar{α}}_{t}} x_{0})}^{⊤}] - \frac{{\bar{β}}_{t}}{{\bar{α}}_{t}} ϵ_{θ} (x_{t}, t) ϵ_{θ} (x_{t}, t)^{⊤} \end{aligned} \end{matrix}

\begin{matrix} (20) & \begin{aligned} E_{x_{t} \sim p (x_{t})} E_{x_{0} \sim p (x_{0} | x_{t})} [(x_{t} - \sqrt{{\bar{α}}_{t}} x_{0}) {(x_{t} - \sqrt{{\bar{α}}_{t}} x_{0})}^{⊤}] \\ = & E_{x_{0} \sim p (x_{0})} E_{x_{t} \sim p (x_{t} | x_{0})} [(x_{t} - \sqrt{{\bar{α}}_{t}} x_{0}) {(x_{t} - \sqrt{{\bar{α}}_{t}} x_{0})}^{⊤}] \end{aligned} \end{matrix}

\begin{matrix} (21) & {\bar{σ}}_{t}^{2} = \frac{{\bar{β}}_{t}}{{\bar{α}}_{t}} (1 - \frac{1}{d} E_{x_{t} \sim p (x_{t})} [‖ ϵ_{θ} (x_{t}, t) ‖^{2}]) \end{matrix}

SN-DPM

\begin{matrix} (22) & \begin{aligned} Σ (x_{t}) = & E_{x_{0} \sim p (x_{0} | x_{t})} [(x_{0} - \bar{μ} (x_{t})) {(x_{0} - \bar{μ} (x_{t}))}^{⊤}] \\ = & \frac{1}{{\bar{α}}_{t}} E_{x_{0} \sim p (x_{0} | x_{t})} [(x_{t} - \sqrt{{\bar{α}}_{t}} x_{0}) {(x_{t} - \sqrt{{\bar{α}}_{t}} x_{0})}^{⊤}] - \frac{{\bar{β}}_{t}}{{\bar{α}}_{t}} ϵ_{θ} (x_{t}, t) ϵ_{θ} (x_{t}, t)^{⊤} \\ = & \frac{{\bar{β}}_{t}}{{\bar{α}}_{t}} E_{x_{0} \sim p (x_{0} | x_{t})} [ϵ_{θ} (x_{t}, t) ϵ_{θ} (x_{t}, t)^{⊤}] - \frac{{\bar{β}}_{t}}{{\bar{α}}_{t}} ϵ_{θ} (x_{t}, t) ϵ_{θ} (x_{t}, t)^{⊤} \end{aligned} \end{matrix}

NPR-DPM

\begin{matrix} (23) & \begin{aligned} Σ (x_{t}) = & E_{x_{0} \sim p (x_{0} | x_{t})} [(x_{0} - \bar{μ} (x_{t})) {(x_{0} - \bar{μ} (x_{t}))}^{⊤}] \\ = & \frac{{\bar{β}}_{t}}{{\bar{α}}_{t}} E_{x_{0} \sim p (x_{0} | x_{t})} [(ϵ_{t} - ϵ_{θ} (x_{t}, t)) {(ϵ_{t} - ϵ_{θ} (x_{t}, t))}^{⊤}] \end{aligned} \end{matrix}

乔列斯基(Cholesky)分解

Latent Diffusion Model(LDM)

LDM在原本的DDPM的基础上使用预训练的VAE将输入压缩到潜空间，模型被训练用来生成图像在潜空间的表示。

VAE编码

潜空间训练

Blurring Diffusion Model(BDM)

$\boldsymbol{u}_{t} = \boldsymbol{V}^{\top}\boldsymbol{x}_{t}$ $\boldsymbol{u}_{\boldsymbol{\epsilon},t} = \boldsymbol{V}^{\top}\boldsymbol{\epsilon}_{t}$ $\boldsymbol{V}^{\top}$ $\eqref{eq:bdm_forward}$ 所示：

\begin{array}{r} (24) & u_{t} = α_{t} u_{t} + σ_{t} u_{ϵ, t} \end{array}

$\eqref{eq:bdm_loss}$ 所示：

\begin{matrix} (25) & L := ‖ ϵ_{θ} (z_{t}, t) - ϵ_{t} ‖^{2} \end{matrix}

$\boldsymbol{z}_{t} = \boldsymbol{V}(\boldsymbol{\alpha}_{t}\boldsymbol{u}_{t} + \boldsymbol{\sigma}_{t} \boldsymbol{u}_{\boldsymbol{\epsilon},t})$ $\boldsymbol{V}$ 表示DCT逆变化，在频率空间的采样过程与原DDPM保持相同。

\begin{matrix} (26) & x_{t} = \sqrt{{\bar{α}}_{t}} x_{0} + \sqrt{{\bar{β}}_{t}} ϵ \Rightarrow \frac{x_{t}}{\sqrt{{\bar{α}}_{t}}} = x_{0} + \frac{\sqrt{{\bar{β}}_{t}}}{\sqrt{{\bar{α}}_{t}}} ϵ \end{matrix}