預訓練語言模型 | (2) transformer

時間 2021-01-02

標籤預訓練語言模型简体版

原文原文鏈接

原文鏈接目錄 1. 背景 2. transformer流程與技術細節 3. 總結 1. 背景 17年之前，語言模型都是通過rnn，lstm來建模，這樣雖然可以學習上下文之間的關係，但是無法並行化，給模型的訓練和推理帶來了困難，因此論文提出了一種完全基於attention來對語言建模的模型，叫做transformer。transformer擺脫了nlp任務對於rnn，lstm的依賴，使用了self

>>阅读原文<<