注意力机制

注意力机制通过注意力汇聚将查询（自主性提示，Q）和键（非自主性提示，K）结合在一起，实现对值（感官输入，V）的选择倾向，其中键和值是成对的。

注意力机制与全连接层的区别在于其加入了自主性提示

注意力汇聚

非参数注意力汇聚

Nadaraya-Watson核回归（Nadaraya-Watson kernel regression） $\eqref{eq:NWkernel}$ 所示：

\begin{aligned} (1) & f (q) & = \sum_{i = 1}^{n} \frac{K (q, k_{i})}{\sum_{j = 1}^{n} K (q, k_{j})} v_{i} \\ (2) & = \sum_{i = 1}^{n} α (q, k_{i}) v_{i} \end{aligned}

$q$ $(k_i, v_i)$ $K(k_i, v_i)$ $\eqref{eq:nonpara}$ $\alpha(q, k_i) \ge 0$ $\sum_{i = 1}^n \alpha(q, k_i) = 1$ $s(q, k_i)$ $Softmax$ $\alpha(q, k_i)$ 。

如果键越接近给定的查询，那么相应的值的权重越大，对该值的倾向性（注意力）也就越大。同时，如果有足够的数据，非参数注意力汇聚会收敛到最优结果。

参数注意力汇聚

$\eqref{eq:para_atten}$ 所示：

\begin{matrix} (3) & f (q) = s o f t m a x (s (q, k) \cdot ω) \cdot v^{T} \end{matrix}

$\omega$ 为可学习的参数。

注意力得分数

加性注意力

$\eqref{eq:add_atten}$ 所示：

\begin{matrix} (4) & s (q, k) = w_{v}^{⊤} tanh (W_{q} q + W_{k} k) \in R, \end{matrix}

$\mathbf{q} \in \mathbb{R}^q$ $\mathbf{k} \in \mathbb{R}^k$ $\mathbf W_q\in\mathbb R^{h\times q}$ $\mathbf W_k\in\mathbb R^{h\times k}$ $\mathbf w_v\in\mathbb R^{h}$ 可通过网络进行学习。

缩放点积注意力

$d$ $\eqref{eq:dot_atten}$ 所示：

\begin{matrix} (5) & f (Q) = s o f t m a x (\frac{Q K^{⊤}}{\sqrt{d}}) V \end{matrix}

$d$ 为向量的长度。

多头注意力

$h$ 组不同的线性映射来变换查询、键和值，然后基于相同的注意力汇聚学习到不同的行为，最后将得到的不同行为线性加权，产生最终输出。其中每一个注意力汇聚都被称为一个头。

在多头注意力中，通常使用缩放点积的注意力汇聚方式，其计算方式如下所示：

\begin{matrix} (6) & Q_{i} = f_{Q_{i}} (Q), K_{i} = f_{K_{i}} (K), V_{i} = f_{V_{i}} (V) \\ (7) & h_{i} = s o f t m a x (\frac{Q_{i} K_{i}^{⊤}}{\sqrt{d}}) V_{i} \\ (8) & f (Q) = \sum ω_{i} h_{i} \end{matrix}

$f$ 为线性映射函数。

自注意力

自注意力的查询、键和值来自同一组输入，只关注序列内信息。

交叉注意力

交叉注意力中的查询来自第一组输入，而键和值来自第二组输入，结合了编码器输出的上下文信息。