BERT模型詳解

時間 2020-10-21

標籤函數性能學習編碼 spa code orm blog token 文檔欄目系統性能简体版

原文原文鏈接

1 簡介

BERT全稱Bidirectional Enoceder Representations from Transformers，即雙向的Transformers的Encoder。是谷歌於2018年10月提出的一個語言表示模型（language representation model）。

預訓練方法（pre-trained）：
- 用Masked LM學習詞語在上下文中的表示；
- 用Next Sentence Prediction來學習句子級表示。

Bert以前的幾年，人們經過DNN對語言模型進行「預訓練」，獲得詞向量，而後在一些下游NLP任務（問題回答，天然語言推斷，情感分析等）上進行了微調，取得了很好的效果。函數
對於下游任務，一般並非直接使用預訓練的語言模型，而是使用語言模型的副產物--詞向量。實際上，預訓練語言模型一般是但願獲得「每一個單詞的最佳上下文表示」。若是每一個單詞只能看到本身「左側的上下文」，顯然會缺乏許多語境信息。所以須要訓練從右到左的模型。這樣，每一個單詞都有兩個表示形式：從左到右和從右到左，而後就能夠將它們串聯在一塊兒以完成下游任務了。性能
綜上，從直覺上講，若是能夠訓練一個高度雙向的語言模型，那將很是棒。學習

能夠和同是雙向的ELMo對比一下：編碼

ELMo:
\(P(w_i|w_1, w_2, ..., w_{i-1})\) 和 \(P(w_i|w_{i+1}, w_{i+2},...,w_n)\)做爲目標函數，獨立訓練處兩個representation而後拼接。
BERT的目標函數：
\(P(w_i|w_1, ..., w_{i-1}, w_{i+1},...,w_n)\)以此訓練LM。

-spa

Bert的Embedding由三種Embedding求和而成。
Token Embeddings 是指的詞（字）向量。第一個單詞是CLS標誌，能夠用於以後的分類任務。？？？？
Segment Embeddings用來區別兩種句子，預訓練除了LM，還須要作判斷兩個句子前後順序的分類任務。
Position Embeddings和Transformer的Position Embeddings不同，在Transformer中使用的是公式法在bert這裏是經過訓練獲得的。

在將單詞序列輸入給 BERT 以前，每一個序列中有 15％的單詞被 [MASK] token 替換。而後模型嘗試基於序列中其餘未被 mask 的單詞的上下文來預測被mask的原單詞。最終的損失函數只計算被mask掉那個token。code
若是一直用標記[MASK]代替（在實際預測時是碰不到這個標記的）會影響模型，具體的MASK是有trick的：orm
隨機mask的時候10%的單詞會被替代成其餘單詞，10%的單詞不替換，剩下80%才被替換爲[MASK]。做者沒有說明什麼緣由，應該是基於實驗效果？blog
要注意的是Masked LM預訓練階段模型是不知道真正被mask的是哪一個詞，因此模型每一個詞都要關注。token
訓練技巧：序列長度太大（512）會影響訓練速度，因此90%的steps都用seq_len=128訓練，餘下的10%步數訓練512長度的輸入。文檔
具體實現注意：
- i) 在encoder的輸出上添加一個分類層。
- ii) 用嵌入矩陣乘以輸出向量，將其轉換爲詞彙的維度。
- iii) 用softmax計算詞彙表中每一個單詞的機率。
BERT的損失函數只考慮了mask的預測值，忽略了沒有掩蔽的字的預測。這樣的話，模型要比單向模型收斂得慢，不過結果的情境意識增長了。

LM存在的問題是，缺乏句子之間的關係，這對許多NLP任務很重要。爲預訓練句子關係模型，bert使用一個很是簡單的二分類任務：將兩個句子A和B連接起來，預測原始文本中句子B是否排在句子A以後。
具體訓練的時候，50％的輸入對在原始文檔中是先後關係，另外50％中是從語料庫中隨機組成的，而且是與第一句斷開的。
爲了幫助模型區分開訓練中的兩個句子，輸入在進入模型以前要按如下方式進行處理：
在第一個句子的開頭插入 [CLS] 標記，在每一個句子的末尾插入 [SEP] 標記。
將表示句子 A 或句子 B 的一個句子 embedding 添加到每一個 token 上，即前文說的Segment Embeddings。
給每一個token添加一個位置embedding，來表示它在序列中的位置。
爲了預測第二個句子是不是第一個句子的後續句子，用下面幾個步驟來預測：
整個輸入序列輸入給 Transformer 模型用一個簡單的分類層將[CLS]標記的輸出變換爲 2×1 形狀的向量。
用 softmax 計算 IsNextSequence 的機率
在訓練BERT模型時，Masked LM和 Next Sentence Prediction 是一塊兒訓練的，目標就是要最小化兩種策略的組合損失函數。