Transformer及其變種

Transformer RNN無法並行計算-》Self Attention,每一個輸出都保證看過所有的輸入。 Attention: 吃兩個向量,吐出這兩個向量匹配的分數attention(q&k)=a。 爲什麼容易實現並行化(parallel) Mutihead Attention:每個head都關注不同的地方 但是,截至到目前爲止,並沒有考慮到輸入序列順序(位置參數)的問題!!! 爲什麼位置編碼
相關文章
相關標籤/搜索