BERT的通俗理解 預訓練模型 微調

一、預訓練模型
      BERT是一個預訓練的模型,那麼什麼是預訓練呢?舉例子進行簡單的介紹
      假設已有A訓練集,先用A對網絡進行預訓練,在A任務上學會網絡參數,而後保存以備後用,當來一個新的任務B,採起相同的網絡結構,網絡參數初始化的時候能夠加載A學習好的參數,其餘的高層參數隨機初始化,以後用B任務的訓練數據來訓練網絡,當加載的參數保持不變時,稱爲"frozen",當加載的參數隨着B任務的訓練進行不斷的改變,稱爲「fine-tuning」,即更好地把參數進行調整使得更適合當前的B任務git

     優勢:當任務B的訓練數據較少時,很難很好的訓練網絡,可是得到了A訓練的參數,會比僅僅使用B訓練的參數更優github

Task #1: Masked LM
     爲了訓練雙向特徵,這裏採用了Masked Language Model的預訓練方法,隨機mask句子中的部分token,而後訓練模型來預測被去掉的token。網絡

具體操做是:架構

隨機mask語料中15%的token,而後將masked token 位置輸出的final hidden vectors送入softmax,來預測masked token。app

這裏也有一個小trick,若是都用標記[MASK]代替token會影響模型,因此在隨機mask的時候採用如下策略:less

1)80%的單詞用[MASK]token來代替學習

my dog is hairy → my dog is [MASK]
2)10%單詞用任意的詞來進行代替ui

my dog is hairy → my dog is applegoogle

3)10%單詞不變編碼

my dog is hairy → my dog is hairy


Task 2#: Next Sentence Prediction
       爲了讓模型捕捉兩個句子的聯繫,這裏增長了Next Sentence Prediction的預訓練方法,即給出兩個句子A和B,B有一半的可能性是A的下一句話,訓練模型來預測B是否是A的下一句話
Input = [CLS] the man went to [MASK] store [SEP]
             penguin [MASK] are flight ## less birds [SEP]
Label = NotNext
             he bought a gallon [MASK] milk [SEP]
Label = IsNext
Input = [CLS] the man [MASK] to the store [SEP]
訓練模型,使模型具有理解長序列上下文的聯繫的能力

二、BERT模型
BERT:全稱是Bidirectional Encoder Representation from Transformers,即雙向Transformer的Encoder,BERT的模型架構基於多層雙向轉換解碼,由於decoder是不能獲要預測的信息的,模型的主要創新點都在pre-traing方法上,即用了Masked LM和Next Sentence Prediction兩種方法分別捕捉詞語和句子級別的representation

其中「雙向」表示模型在處理某一個詞時,它能同時利用前面的詞和後面的詞兩部分信息,這種「雙向」的來源在於BERT與傳統語言模型不一樣,它不是在給你大牛股全部前面詞的條件下預測最可能的當前詞,而是隨機遮掩一些詞,並利用全部沒被遮掩的詞進行預測

下圖展現了三種預訓練模型,其中 BERT 和 ELMo 都使用雙向信息,OpenAI GPT 使用單向信息


三、BERT的輸入部分


     bert的輸入部分是個線性序列,兩個句子經過分隔符分割,最前面和最後增長兩個標識符號。每一個單詞有三個embedding:位置信息embedding,這是由於NLP中單詞順序是很重要的特徵,須要在這裏對位置信息進行編碼;單詞embedding,這個就是咱們以前一直提到的單詞embedding;第三個是句子embedding,由於前面提到訓練數據都是由兩個句子構成的,那麼每一個句子有個句子總體的embedding項對應給每一個單詞。把單詞對應的三個embedding疊加,就造成了Bert的輸入。

      如上圖所示,輸入有A句[my dog is cute]和B句[he likes playing]這兩個天然句,咱們首先須要將每一個單詞及特殊符號都轉化爲詞嵌入向量,由於神經網絡只能進行數值計算。其中特殊符[SEP]是用於分割兩個句子的符號,前面半句會加上分割碼A,後半句會加上分割碼B
      由於要建模句子之間的關係,BERT 有一個任務是預測 B 句是否是 A 句後面的一句話,而這個分類任務會藉助 A/B 句最前面的特殊符 [CLS] 實現,該特殊符能夠視爲聚集了整個輸入序列的表徵。
最後的位置編碼是 Transformer 架構自己決定的,由於基於徹底注意力的方法並不能像 CNN 或 RNN 那樣編碼詞與詞之間的位置關係,可是正由於這種屬性才能無視距離長短建模兩個詞之間的關係。所以爲了令 Transformer 感知詞與詞之間的位置關係,咱們須要使用位置編碼給每一個詞加上位置信息。

總結一下:
(1)token embeddings表示的是詞向量,第一個單詞是CLS,能夠用於以後的分類任務
(2)segment embeddings用來區別兩種句子,由於預訓練不光作LM還要作以兩個句子爲輸入的分類任務
(3)position embeddings表示位置信息

四、NLP的四大類任務
(1)序列標註:分詞、實體識別、語義標註……
(2)分類任務:文本分類、情感計算……
(3)句子關係判斷:entailment、QA、天然語言推理
(4)生成式任務:機器翻譯、文本摘

上圖給出示例,對於句子關係類任務,很簡單,和GPT相似,加上一個起始和終結符號,句子之間加個分隔符便可。對於輸出來講,把第一個起始符號對應的Transformer最後一層位置上面串接一個softmax分類層便可。對於分類問題,與GPT同樣,只須要增長起始和終結符號,輸出部分和句子關係判斷任務相似改造;對於序列標註問題,輸入部分和單句分類是同樣的,只須要輸出部分Transformer最後一層每一個單詞對應位置都進行分類便可。從這裏能夠看出,上面列出的NLP四大任務裏面,除了生成類任務外,Bert其它都覆蓋到了,並且改造起來很簡單直觀。(https://zhuanlan.zhihu.com/p/49271699)

五、模型的評價
(1)優勢

BERT是截止至2018年10月的最新的的state of the art模型,經過預訓練和精調能夠解決11項NLP的任務。使用的是Transformer,相對於rnn而言更加高效、能捕捉更長距離的依賴。與以前的預訓練模型相比,它捕捉到的是真正意義上的bidirectional context信息

(2)缺點

做者在文中主要提到的就是MLM預訓練時的mask問題:

1)[MASK]標記在實際預測中不會出現,訓練時用過多[MASK]影響模型表現;

2)每一個batch只有15%的token被預測,因此BERT收斂得比left-to-right模型要慢(它們會預測每一個token)

六、GLUE語料集的介紹
實驗數據以及對應的NLP任務
MNLI:蘊含關係推斷
QQP:問題對是否等價
QNLI:句子是都回答問句
SST-2:情感分析
CoLA:句子語言性判斷
STS-B:語義類似
MRPC:句子對是都語義等價
RTE:蘊含關係推斷
WNLI:蘊含關係推斷

七、git網址https://github.com/google-research/bert關於bert知識乾貨的彙總https://zhuanlan.zhihu.com/p/50717786

相關文章
相關標籤/搜索