编码器中是 self-attention,是自编码,q、k、v同源,计算出各单词(query)在整个句子(values、keys) 中的份量; 解码器中是 encoder-decoder attention,q、k(v)不同源,query是解码器已生成内容的词向量,values、keys 来自编码器; decoder 输出一个词向量,还要经过 linear 和 softmax 才能变成单词。
编码器中是 self-attention,是自编码,q、k、v同源,计算出各单词(query)在整个句子(values、keys) 中的份量; 解码器中是 encoder-decoder attention,q、k(v)不同源,query是解码器已生成内容的词向量,values、keys 来自编码器; decoder 输出一个词向量,还要经过 linear 和 softmax 才能变成单词。