Transformer

時間 2020-12-22

標籤深度學習 Pytorch 简体版

原文原文鏈接

提出 CNNs 易於並行化，卻不適合捕捉變長序列內的依賴關係。 RNNs 適合捕捉長距離變長序列的依賴，但是卻難以實現並行化處理序列。爲了整合CNN和RNN的優勢，[Vaswani et al., 2017] 創新性地使用注意力機制設計了Transformer模型。該模型利用attention機制實現了並行化捕捉序列依賴，並且同時處理序列的每個位置的tokens，上述優勢使得Transforme

>>阅读原文<<

1. transformer詳解：transformer/ universal transformer/ transformer-XL
2. 【Transformer】圖解 Transformer
3. transformer
4. Transformer
5. Transformer++
6. 學習Transformer（The Illustrated Transformer）
7. Transformer & Bert
8. 讀Transformer
9. Transformer LambdaNetworks
10. Star-Transformer
更多相關文章...
• RxJava操作符（十）自定義操作符
• ☆基於Java Instrument的Agent實現

相關標籤/搜索

transformer

seq2seq+attention+transformer