Transformer++

時間 2020-12-28

標籤中文自然語言處理 Paper 简体版

原文原文鏈接

我們使用如圖[1]所示的編碼器-解碼器架構來對一個序列進行序列建模，該架構遵循Transformer[15]中提出的架構。我們提出了一種計算注意函數的新方法，同時學習了新的多頭和傳統的多頭。對於給定的H(多個頭的總數)，我們在H/2 heads中使用自我注意來捕獲全局依賴關係，並在H/2 heads中使用基於卷積的注

>>阅读原文<<

1. transformer詳解：transformer/ universal transformer/ transformer-XL
2. 【Transformer】圖解 Transformer
3. transformer
4. Transformer
5. 學習Transformer（The Illustrated Transformer）
6. Transformer & Bert
7. 讀Transformer
8. Transformer LambdaNetworks
9. Star-Transformer
10. Bert&transformer
更多相關文章...
• RxJava操作符（十）自定義操作符
• ☆基於Java Instrument的Agent實現

相關標籤/搜索

transformer

seq2seq+attention+transformer