Transformer及其變種

時間 2021-01-06

原文原文鏈接

Transformer RNN無法並行計算-》Self Attention，每一個輸出都保證看過所有的輸入。 Attention: 吃兩個向量，吐出這兩個向量匹配的分數attention(q&k)=a。爲什麼容易實現並行化（parallel） Mutihead Attention：每個head都關注不同的地方但是，截至到目前爲止，並沒有考慮到輸入序列順序（位置參數）的問題！！！爲什麼位置編碼

>>阅读原文<<