XLNet預訓練模型，看這篇就夠了！(代碼實現)

時間 2019-11-06

標籤 xlnet 訓練模型看這夠了代碼實現简体版

原文原文鏈接

1. 什麼是XLNet

XLNet 是一個相似 BERT 的模型，而不是徹底不一樣的模型。總之，XLNet是一種通用的自迴歸預訓練方法。它是CMU和Google Brain團隊在2019年6月份發佈的模型，最終，XLNet 在 20 個任務上超過了 BERT 的表現，並在 18 個任務上取得了當前最佳效果（state-of-the-art），包括機器問答、天然語言推斷、情感分析和文檔排序。git

做者表示，BERT 這樣基於去噪自編碼器的預訓練模型能夠很好地建模雙向語境信息，性能優於基於自迴歸語言模型的預訓練方法。然而，因爲須要 mask 一部分輸入，BERT 忽略了被 mask 位置之間的依賴關係，所以出現預訓練和微調效果的差別（pretrain-finetune discrepancy）。github

基於這些優缺點，該研究提出了一種泛化的自迴歸預訓練模型 XLNet。XLNet 能夠：面試

經過最大化全部可能的因式分解順序的對數似然，學習雙向語境信息；
用自迴歸自己的特色克服 BERT 的缺點；
此外，XLNet 還融合了當前最優自迴歸模型 Transformer-XL 的思路。

2. 自迴歸語言模型（Autoregressive LM）

在ELMO／BERT出來以前，你們一般講的語言模型實際上是根據上文內容預測下一個可能跟隨的單詞，就是常說的自左向右的語言模型任務，或者反過來也行，就是根據下文預測前面的單詞，這種類型的LM被稱爲自迴歸語言模型。GPT 就是典型的自迴歸語言模型。ELMO儘管看上去利用了上文，也利用了下文，可是本質上仍然是自迴歸LM，這個跟模型具體怎麼實現有關係。ELMO是作了兩個方向（從左到右以及從右到左兩個方向的語言模型），可是是分別有兩個方向的自迴歸LM，而後把LSTM的兩個方向的隱節點狀態拼接到一塊兒，來體現雙向語言模型這個事情的。因此實際上是兩個自迴歸語言模型的拼接，本質上仍然是自迴歸語言模型。架構

自迴歸語言模型有優勢有缺點：機器學習

缺點是隻能利用上文或者下文的信息，不能同時利用上文和下文的信息，固然，貌似ELMO這種雙向都作，而後拼接看上去可以解決這個問題，由於融合模式過於簡單，因此效果其實並非太好。性能

優勢其實跟下游NLP任務有關，好比生成類NLP任務，好比文本摘要，機器翻譯等，在實際生成內容的時候，就是從左向右的，自迴歸語言模型自然匹配這個過程。而Bert這種DAE模式，在生成類NLP任務中，就面臨訓練過程和應用過程不一致的問題，致使生成類的NLP任務到目前爲止都作不太好。學習

3. 自編碼語言模型（Autoencoder LM）

自迴歸語言模型只能根據上文預測下一個單詞，或者反過來，只能根據下文預測前面一個單詞。相比而言，Bert經過在輸入X中隨機Mask掉一部分單詞，而後預訓練過程的主要任務之一是根據上下文單詞來預測這些被Mask掉的單詞，若是你對Denoising Autoencoder比較熟悉的話，會看出，這確實是典型的DAE的思路。那些被Mask掉的單詞就是在輸入側加入的所謂噪音。相似Bert這種預訓練模式，被稱爲DAE LM。測試

這種DAE LM的優缺點正好和自迴歸LM反過來，它能比較天然地融入雙向語言模型，同時看到被預測單詞的上文和下文，這是好處。缺點是啥呢？主要在輸入側引入[Mask]標記，致使預訓練階段和Fine-tuning階段不一致的問題，由於Fine-tuning階段是看不到[Mask]標記的。DAE嗎，就要引入噪音，[Mask] 標記就是引入噪音的手段，這個正常。ui

XLNet的出發點就是：可否融合自迴歸LM和DAE LM二者的優勢。就是說若是站在自迴歸LM的角度，如何引入和雙向語言模型等價的效果；若是站在DAE LM的角度看，它自己是融入雙向語言模型的，如何拋掉表面的那個[Mask]標記，讓預訓練和Fine-tuning保持一致。固然，XLNet還講到了一個Bert被Mask單詞之間相互獨立的問題。編碼

4. XLNet模型

4.1 排列語言建模（Permutation Language Modeling）

Bert的自編碼語言模型也有對應的缺點，就是XLNet在文中指出的：

第一個預訓練階段由於採起引入[Mask]標記來Mask掉部分單詞的訓練模式，而Fine-tuning階段是看不到這種被強行加入的Mask標記的，因此兩個階段存在使用模式不一致的情形，這可能會帶來必定的性能損失；
另一個是，Bert在第一個預訓練階段，假設句子中多個單詞被Mask掉，這些被Mask掉的單詞之間沒有任何關係，是條件獨立的，而有時候這些單詞之間是有關係的。

上面兩點是XLNet在第一個預訓練階段，相對Bert來講要解決的兩個問題。

其實思路也比較簡潔，能夠這麼思考：XLNet仍然遵循兩階段的過程，第一個階段是語言模型預訓練階段；第二階段是任務數據Fine-tuning階段。它主要但願改動第一個階段，就是說不像Bert那種帶Mask符號的Denoising-autoencoder的模式，而是採用自迴歸LM的模式。就是說，看上去輸入句子X仍然是自左向右的輸入，看到Ti單詞的上文Context_before，來預測Ti這個單詞。可是又但願在Context_before裏，不只僅看到上文單詞，也能看到Ti單詞後面的下文Context_after裏的下文單詞，這樣的話，Bert裏面預訓練階段引入的Mask符號就不須要了，因而在預訓練階段，看上去是個標準的從左向右過程，Fine-tuning固然也是這個過程，因而兩個環節就統一塊兒來。固然，這是目標。剩下是怎麼作到這一點的問題。

首先，須要強調一點，儘管上面講的是把句子X的單詞排列組合後，再隨機抽取例子做爲輸入，可是，實際上你是不能這麼作的，由於Fine-tuning階段你不可能也去排列組合原始輸入。因此，就必須讓預訓練階段的輸入部分，看上去仍然是x1,x2,x3,x4這個輸入順序，可是能夠在Transformer部分作些工做，來達成咱們但願的目標。

具體而言，XLNet採起了Attention掩碼的機制，你能夠理解爲，當前的輸入句子是X，要預測的單詞Ti是第i個單詞，前面1到i-1個單詞，在輸入部分觀察，並沒發生變化，該是誰仍是誰。可是在Transformer內部，經過Attention掩碼，從X的輸入單詞裏面，也就是Ti的上文和下文單詞中，隨機選擇i-1個，放到Ti的上文位置中，把其它單詞的輸入經過Attention掩碼隱藏掉，因而就可以達成咱們指望的目標（固然這個所謂放到Ti的上文位置，只是一種形象的說法，其實在內部，就是經過Attention Mask，把其它沒有被選到的單詞Mask掉，不讓它們在預測單詞Ti的時候發生做用，如此而已。看着就相似於把這些被選中的單詞放到了上文Context_before的位置了）。

具體實現的時候，XLNet是用「雙流自注意力模型」實現的，細節能夠參考論文，可是基本思想就如上所述，雙流自注意力機制只是實現這個思想的具體方式，理論上，你能夠想出其它具體實現方式來實現這個基本思想，也能達成讓Ti看到下文單詞的目標。

這裏簡單說下「雙流自注意力機制」，一個是內容流自注意力，其實就是標準的Transformer的計算過程；主要是引入了Query流自注意力，這個是幹嗎的呢？其實就是用來代替Bert的那個[Mask]標記的，由於XLNet但願拋掉[Mask]標記符號，可是好比知道上文單詞x1,x2，要預測單詞x3，此時在x3對應位置的Transformer最高層去預測這個單詞，可是輸入側不能看到要預測的單詞x3，Bert實際上是直接引入[Mask]標記來覆蓋掉單詞x3的內容的，等於說[Mask]是個通用的佔位符號。而XLNet由於要拋掉[Mask]標記，可是又不能看到x3的輸入，因而Query流，就直接忽略掉x3輸入了，只保留這個位置信息，用參數w來表明位置的embedding編碼。其實XLNet只是扔了表面的[Mask]佔位符號，內部仍是引入Query流來忽略掉被Mask的這個單詞。和Bert比，只是實現方式不一樣而已。

上面講的Permutation Language Model是XLNet的主要理論創新，因此介紹的比較多，從模型角度講，這個創新仍是挺有意思的，由於它開啓了自迴歸語言模型如何引入下文的一個思路，相信對於後續工做會有啓發。固然，XLNet不只僅作了這些，它還引入了其它的因素，也算是一個當前有效技術的集成體。感受XLNet就是Bert、GPT 2.0和Transformer XL的綜合體變身：

首先，它經過PLM(Permutation Language Model)預訓練目標，吸取了Bert的雙向語言模型；
而後，GPT2.0的核心實際上是更多更高質量的預訓練數據，這個明顯也被XLNet吸取進來了；
再而後，Transformer XL的主要思想也被吸取進來，它的主要目標是解決Transformer對於長文檔NLP應用不夠友好的問題。

4.2 Transformer XL

目前在NLP領域中，處理語言建模問題有兩種最早進的架構：RNN和Transformer。RNN按照序列順序逐個學習輸入的單詞或字符之間的關係，而Transformer則接收一整段序列，而後使用self-attention機制來學習它們之間的依賴關係。這兩種架構目前來看都取得了使人矚目的成就，但它們都侷限在捕捉長期依賴性上。

爲了解決這一問題，CMU聯合Google Brain在2019年1月推出的一篇新論文《Transformer-XL：Attentive Language Models beyond a Fixed-Length Context》同時結合了RNN序列建模和Transformer自注意力機制的優勢，在輸入數據的每一個段上使用Transformer的注意力模塊，並使用循環機制來學習連續段之間的依賴關係。

4.2.1 vanilla Transformer

爲什麼要提這個模型？由於Transformer-XL是基於這個模型進行的改進。

Al-Rfou等人基於Transformer提出了一種訓練語言模型的方法，來根據以前的字符預測片斷中的下一個字符。例如，它使用 $x_1,x_2,...,x_{n-1}$ 預測字符，而在以後的序列則被mask掉。論文中使用64層模型，並僅限於處理 512個字符這種相對較短的輸入，所以它將輸入分紅段，並分別從每一個段中進行學習，以下圖所示。在測試階段如需處理較長的輸入，該模型會在每一步中將輸入向右移動一個字符，以此實現對單個字符的預測。

該模型在經常使用的數據集如enwik8和text8上的表現比RNN模型要好，但它仍有如下缺點：

上下文長度受限：字符之間的最大依賴距離受輸入長度的限制，模型看不到出如今幾個句子以前的單詞。
上下文碎片：對於長度超過512個字符的文本，都是從頭開始單獨訓練的。段與段之間沒有上下文依賴性，會讓訓練效率低下，也會影響模型的性能。
推理速度慢：在測試階段，每次預測下一個單詞，都須要從新構建一遍上下文，並從頭開始計算，這樣的計算速度很是慢。

4.2.2 Transformer XL

Transformer-XL架構在vanilla Transformer的基礎上引入了兩點創新：循環機制（Recurrence Mechanism）和相對位置編碼（Relative Positional Encoding），以克服vanilla Transformer的缺點。與vanilla Transformer相比，Transformer-XL的另外一個優點是它能夠被用於單詞級和字符級的語言建模。

引入循環機制

與vanilla Transformer的基本思路同樣，Transformer-XL仍然是使用分段的方式進行建模，但其與vanilla Transformer的本質不一樣是在於引入了段與段之間的循環機制，使得當前段在建模的時候可以利用以前段的信息來實現長期依賴性。以下圖所示：

在訓練階段，處理後面的段時，每一個隱藏層都會接收兩個輸入：
- 該段的前面隱藏層的輸出，與vanilla Transformer相同（上圖的灰色線）。
- 前面段的隱藏層的輸出（上圖的綠色線），可使模型建立長期依賴關係。
這兩個輸入會被拼接，而後用於計算當前段的Key和Value矩陣。

該方法能夠利用前面更多段的信息，測試階段也能夠得到更長的依賴。在測試階段，與vanilla Transformer相比，其速度也會更快。在vanilla Transformer中，一次只能前進一個step，而且須要從新構建段，並所有從頭開始計算；而在Transformer-XL中，每次能夠前進一整個段，並利用以前段的數據來預測當前段的輸出。
相對位置編碼

在Transformer中，一個重要的地方在於其考慮了序列的位置信息。在分段的狀況下，若是僅僅對於每一個段仍直接使用Transformer中的位置編碼，即每一個不一樣段在同一個位置上的表示使用相同的位置編碼，就會出現問題。好比，第i−2i-2i−2段和第i−1i-1i−1段的第一個位置將具備相同的位置編碼，但它們對於第iii段的建模重要性顯然並不相同（例如第i−2i-2i−2段中的第一個位置重要性可能要低一些）。所以，須要對這種位置進行區分。

論文對於這個問題，提出了一種新的位置編碼的方式，即會根據詞之間的相對距離而非像Transformer中的絕對位置進行編碼。從另外一個角度來解讀公式的話，能夠將attention的計算分爲以下四個部分：
- 基於內容的「尋址」，即沒有添加原始位置編碼的原始分數。
- 基於內容的位置偏置，即相對於當前內容的位置誤差。
- 全局的內容偏置，用於衡量key的重要性。
- 全局的位置偏置，根據query和key之間的距離調整重要性。
詳細公式見：Transformer-XL解讀（論文 + PyTorch源碼）

5. XLNet與BERT比較

儘管看上去，XLNet在預訓練機制引入的Permutation Language Model這種新的預訓練目標，和Bert採用Mask標記這種方式，有很大不一樣。其實你深刻思考一下，會發現，二者本質是相似的。

區別主要在於：

Bert是直接在輸入端顯示地經過引入Mask標記，在輸入側隱藏掉一部分單詞，讓這些單詞在預測的時候不發揮做用，要求利用上下文中其它單詞去預測某個被Mask掉的單詞；
而XLNet則拋棄掉輸入側的Mask標記，經過Attention Mask機制，在Transformer內部隨機Mask掉一部分單詞（這個被Mask掉的單詞比例跟當前單詞在句子中的位置有關係，位置越靠前，被Mask掉的比例越高，位置越靠後，被Mask掉的比例越低），讓這些被Mask掉的單詞在預測某個單詞的時候不發生做用。

因此，本質上二者並沒什麼太大的不一樣，只是Mask的位置，Bert更表面化一些，XLNet則把這個過程隱藏在了Transformer內部而已。這樣，就能夠拋掉表面的[Mask]標記，解決它所說的預訓練裏帶有[Mask]標記致使的和Fine-tuning過程不一致的問題。至於說XLNet說的，Bert裏面被Mask掉單詞的相互獨立問題，也就是說，在預測某個被Mask單詞的時候，其它被Mask單詞不起做用，這個問題，你深刻思考一下，實際上是不重要的，由於XLNet在內部Attention Mask的時候，也會Mask掉必定比例的上下文單詞，只要有一部分被Mask掉的單詞，其實就面臨這個問題。而若是訓練數據足夠大，其實不靠當前這個例子，靠其它例子，也能彌補被Mask單詞直接的相互關係問題，由於總有其它例子可以學會這些單詞的相互依賴關係。

固然，XLNet這種改造，維持了表面看上去的自迴歸語言模型的從左向右的模式，這個Bert作不到，這個有明顯的好處，就是對於生成類的任務，可以在維持表面從左向右的生成過程前提下，模型裏隱含了上下文的信息。因此看上去，XLNet貌似應該對於生成類型的NLP任務，會比Bert有明顯優點。另外，由於XLNet還引入了Transformer XL的機制，因此對於長文檔輸入類型的NLP任務，也會比Bert有明顯優點。