transformer詳解：transformer/ universal transformer/ transformer-XL

時間 2021-01-10

標籤 nlp transformer paper note 简体版

原文原文鏈接

特別鳴謝劉陸琛@Mayouji在本文寫作過程中的幫助 Attention機制在NLP領域的應用最早可以追朔到2014年，Bengio團隊將Attention引入NMT(神經機器翻譯)任務 [1]。之後更是在深度學習的各個領域得到了廣泛應用：如CV中用於捕捉圖像上的感受野；NLP中定位關鍵token/feature. 作爲某種程度上可以稱爲當下NLP領域最強的特徵抽取器的transformer [2

>>阅读原文<<