如何在NLP中有效利用Deep Transformer？

時間 2021-01-01

原文原文鏈接

2020-01-18 04:15:10 作者 | 王子揚編輯 | Camel 2017年，谷歌在「Attention is all you need」一文中首次提出了完全基於self-attention（自注意力）機制的transformer模型，用於處理序列模型的相關問題，如機器翻譯等。傳統的神經機器翻譯模型大都是採用RNN或者CNN作爲encoder-decoder模型的基礎，而Transfo

>>阅读原文<<