預訓練語言模型 | (2) transformer

原文鏈接 目錄 1. 背景 2. transformer流程與技術細節 3. 總結 1. 背景 17年之前,語言模型都是通過rnn,lstm來建模,這樣雖然可以學習上下文之間的關係,但是無法並行化,給模型的訓練和推理帶來了困難,因此論文提出了一種完全基於attention來對語言建模的模型,叫做transformer。transformer擺脫了nlp任務對於rnn,lstm的依賴,使用了self
相關文章
相關標籤/搜索