watch: Transf - Nick 17 | Decoder

编码器中是 self-attention,是自编码,q、k、v同源,计算出各单词(query)在整个句子(values、keys) 中的份量; 解码器中是 encoder-decoder attention,q、k(v)不同源,query是解码器已生成内容的词向量,values、keys 来自编码器; decoder 输出一个词向量,还要经过 linear 和 softmax 才能变成单词。

17 Transformer 的解码器(Decoders)——我要生成一个又一个单词- 爱钓鱼的程序猿

Built with Hugo
Theme Stack designed by Jimmy