Attention Is All Your Need

Paper : Attention Is All Your Need Code : official 摘要 本文提出了經典的Attention與Multi Head Attention 機制,並利用這兩部分構造了一個Transformer結構,爲BERT的提出打下基礎。作者在NLP相關的數據集上進行測試,相比CNN和RNN給出了以下幾個優點 並行度高,訓練時間短 表現更好 可以更好的處理長距離依賴
相關文章
相關標籤/搜索