attention is all you need 論文筆記

序列轉換模型是基於複雜的RNN或者CNN(Encoder-Decoder),性能最好的模型是在Encoder和Decoder之間加上attention。 提出一種新的網絡結構(transformer),而是完全依賴於注意機制來繪製輸入和輸出之間的全局依賴關係,完全省略了遞歸和卷積。   優點高並行性、訓練時間更短。   2014年WMT英德翻譯任務中達到28.4 BLEU,比現有的最佳結果(包括集
相關文章
相關標籤/搜索