Transformer學習

時間 2020-12-28

原文原文鏈接

文章目錄一、前言二、模型結構二、Self-Attention Mechanism 三、爲什麼計算可並行四、Mult-head Attention 五、positional Encoding 六、殘差連接和層歸一化七、position-wise Feed-Forward Networks 參考資料：一個月之後，要學習Bert模型了，發現學過的transformer已經忘光了，所以又回

>>阅读原文<<