Transformer學習

文章目錄 一、前言 二、模型結構 二、Self-Attention Mechanism 三、爲什麼計算可並行 四、Mult-head Attention 五、positional Encoding 六、殘差連接和層歸一化 七、position-wise Feed-Forward Networks 參考資料:   一個月之後,要學習Bert模型了,發現學過的transformer已經忘光了,所以又回
相關文章
相關標籤/搜索