课程信息：感谢@袁源老师，贪心科技–“ 共同战疫” NLP系列专题直播课，本文所有版权归贪心科技https://www.greedyai.com/所有。

Lecture 2 - Self-Attention与Transformer

1. 背景介绍

（1）之前模型的缺点：本质原因还是RNN体系的梯度消失／爆炸问题，尽管LSTM在一定程度上能缓解该问题，然而并未能完全避免。（2）计算量的问题：因为时序模型必须是串行的，可能在预测阶段还能接受这个时效性，但是在训练阶段，与能并行计算的CNN相比，时效性表现的就不尽如人意了。

2.Transormer网络结构

Transformer内部由6个Encoder和6个Decoder组成。

Encoder和Decoder的内部结构

每个Encoder分为Self-Attention层和前馈网络层，Decoder接受Encoder的输入并且中间多了一层Attention。

如下图，深度仅为一层 的Transformer的Encoder结构图

Encoder

对于一个Encoder的内部结构如图，输入词$x_1$和词$x_2$的embedding，通过Self-Attention共同生成$z_1$和$z_2$，随后单独通过前馈网络得到$r_1$和$r_2$

3.Self-Attention

如果有下图所示的句子，将其分解为一系列的单词，每个单词都计算与其他单词之间的attention有多大。例如单词it与代词The和名次animal之间的注意力权重最大。

Attention计算

我们现在来理解Attention是如何计算的 第一步： 首先根据公共权值矩阵$W^Q,W^K,W^V$来计算出每个单词embedding所对应的Queries、Keys、Values是那个向量。 $q_1 = x_1 \times W^Q$, $k_1 = x_1 \times W^K$, $v_1 = x_1 \times W^V$。所有的词都共用同一个权重矩阵

第二步： 根据如下步骤即可计算出每个输入embedding的attention向量$z$。

对Queries、Keys和Values的解释： 最初用于信息检索领域：此时有查询q=”5G” 和两个键-值对：K=>V : “5G” =>“Huawei” K=>V : “4G”=>”Nokia”

可以看出来检索出“Huawei”的概率更大一些，所以为了能使两个不相关的词$x_1,x_2$能够相互检索，这里就可以使用公共权重矩阵来建立联系。公共权重矩阵最开始是随机化的，在之后的学习过程中逐渐学习到适当的模式。

向量化

为了加快运算，当然要进行向量化。

上述Attention计算的过程就为

这里解释下$\sqrt d_k$的作用： 这里我们假设矩阵$Q$和$K^T$的均值为0，方差为1。那么矩阵相乘后的方差为$d_k$，来缩放其运算结果。

具体公式推导见https://www.zhihu.com/question/339723385

在进行向量化的过程中，需要注意一个序列填充的问题：在对句子进行处理时，填充0到固定长度是一件很常见的事，但是当输入矩阵进行填充后，该如何计算attention使得其不受填充的影响呢？

https://blog.csdn.net/qq_35169059/article/details/101678207

但是呢，我观察tensorflow.org和BERT的Transformer的源码发现，其mask的逻辑是这样的。比如，下图是计算出的$Q\times K^T$后的Attention socre矩阵： $\begin{bmatrix} 0.3 & 0.2& 0.1 \\0.3 & 0.6 & 0.3 \\ 0.23 & 0.45 & 0.67 \end{bmatrix}$ 而我们的输入序列为$[32,22,0]$对应的mask为$[0,0,1]$

if mask is not None:
        scaled_attention_logits += (mask * -1e9)

处理后的attention score为 $\begin{bmatrix} 0.3 & 0.2& -inf \\0.3 & 0.6 & -inf \\ 0.23 & 0.45 & -inf \end{bmatrix}$ 随后计算Softmax时就可以将填充词的贡献计算为0. 并在之后与$V$相乘计算新的embedding时，未填充词不会使用被MASK词的Value，所以encoder最后输出时，未填充词的embedding始终和被MASK无关。 但是因为被MASK的词使用了未填充词的Value，所以在encoder输出时，也需要将output进行mask

def compute_output_mask(seq):
    """
    因为输出的结果中包含了mask词的embedding，所以需要将这些mask词的embedding清0
    :param seq: shape=[batch_size,seq_len]
    :return:
    """
    mask = 1. - tf.cast(tf.math.equal(seq,0),tf.float32) # [batch_size,seq_len]
    mask = tf.expand_dims(mask,axis=2)
    real_seq_len = tf.reduce_sum(mask,axis=1) #[batch_size,1]
    return mask,real_seq_len

def get_mean_pool(seq,out):
    """
    在输出层加一个池化，对未填充序列的embedding做mean
    :param seq: input [batch_size,seq_len]
    :param out: encoder output [batch_size,seq_len,embedding_size]
    :return: 
    """
    mask,real_seq_len = compute_output_mask(seq)
    out = mask * out
    mean_pool = tf.reduce_sum(out,axis=1) / real_seq_len
    return mean_pool

4. “multi-headed” attention

之前我们说，所有的词嵌入在计算attention时同用三个公共权重矩阵$W^Q,W^K,W^V$，那么如果我们像下图一样使用多个公共权重举证多计算几次，会有什么效果？

比如，现在我们采用8个不同的公共权重矩阵，产生了8个不同的Attention输出：

再将这8个不同的Attention heads拼接起来，乘以权重矩阵$W^o$，最后可以得到捕捉了所有attention heads的$Z$矩阵，和单head attention达成了格式上的统一。

因此，总结一下，self-attention的整个计算过程如下示意图，

但是multi-headed 能达到什么样的效果呢？ 如下图，我们提取了8个head中的两个head进行展示：对于单词“it”来说，橘色部分的“The”和“animal”表达此head关注与两单词之间的指代关系，而绿色部分的“was”和“tired”表示此head更关注两单词之间的状态关系。