watch: Transf - Nick 14 | Positional Encoding

bilibili

每个单词都要与前后所有单词加权相加,每个单词包含了句子的全员信息,只考虑了相似性,而丢失了 Input sequence 信息 (也就是改变单词顺序,不会改变各单词的词向量)。所以需要先加上位置信息

为每个 input 做一次位置编码(各 input 的全局顺序)

….