attention is all you need 論文筆記

時間 2021-01-08

原文原文鏈接

序列轉換模型是基於複雜的RNN或者CNN(Encoder-Decoder)，性能最好的模型是在Encoder和Decoder之間加上attention。提出一種新的網絡結構(transformer)，而是完全依賴於注意機制來繪製輸入和輸出之間的全局依賴關係，完全省略了遞歸和卷積。優點高並行性、訓練時間更短。 2014年WMT英德翻譯任務中達到28.4 BLEU，比現有的最佳結果(包括集

>>阅读原文<<