Transformer的學習筆記

1 前言 Transformer是一個很厲害的模型呀~ 2 Self-Attention ​​ Note:這裏的 W q W^q Wq、 W k W^k Wk和 W v W^v Wv的權值是不共享的,也就是獨立的; 我感覺原因可能是因爲,不同時刻的序列 a i a^i ai的特徵可能不太一樣,所以這裏沒有用相同的kernel來提取特徵; (CNN中,所有loc的region都是使用的相同的卷積ke
相關文章
相關標籤/搜索