NLP中的預訓練語言模型（二）—— Facebook的SpanBERT和RoBERTa

時間 2019-11-06

原文原文鏈接

　　本篇帶來Facebook的提出的兩個預訓練模型——SpanBERT和RoBERTa。git

一，SpanBERTgithub

　　論文：SpanBERT: Improving Pre-training by Representing and Predicting Spans 算法

　　GitHub：https://github.com/facebookresearch/SpanBERT函數

　　這篇論文中提出了一種新的mask的方法，以及一個新損失函數對象。而且討論了bert中的NSP任務是否有用。接下來SpanBERT是如何預訓練的，具體以下圖所示：性能

　　如上圖所示，首先這裏的mask策略是span mask。具體的作法是首先從一個幾何分佈中採樣span的長度，且限制最大長度爲10，而後再隨機採樣（如均勻分佈) span的初始位置。整個訓練任務就是預測mask的token，另外mask的比例問題和bert中相似。可是在這裏引入了兩個損失對象，$L_{MLM}$ 和$L_{SBO}$，$L_{MLM}$和bert中的同樣，而這個$L_{SBO}$是隻經過span的邊界處的兩個token來預測span中mask的詞，公式表示以下：測試

　　函數$f(.)$表示以下：spa

　　除了這些以外還有兩個策略，一是動態mask，在bert中是在數據預處理階段對一條序列隨機不一樣的mask 10次，而在這裏是每次epoch時對序列使用不一樣的mask。二是bert中會在數據預處理階段生成10%的長度短於512的序列，而在這裏不作這樣的操做，只是對一個document一直截取512長度的序列，但最後一個序列長度可能會小於512。另外將adam中的$\epsilon$設置爲1e-8。做者根據這兩個策略重新訓練了一個bert模型，同時去除NSP任務只使用單條序列訓練了一個bert模型。所以做者給出了四個模型的性能對比：3d

　　Google BERT：谷歌開源的berthtm

　　Our BERT：基於上面兩個策略訓練出來的bert對象

　　Our BERT-1seq：基於上面兩個策略，且去除NSP任務的bert

　　SpanBERT：本篇論文提出的模型

　　做者給出的第一個性能測試的表格是在SQuAD數據集上，

　　SpanBERT是有很大的提高的，另外去除NSP任務也有提高，做者認爲NSP任務使得單條序列的長度不夠，以致於模型沒法很好的捕獲長距離信息。另外在其餘的抽取式QA任務上也有很大的提高

　　我的認爲SpanBERT在抽取式QA任務上能取得如此大的提高，是由於SpanBERT中構造的任務，尤爲是SBO任務其實是有點貼合抽取式QA任務的。

　　在其餘任務上SpanBERT也有一些提高，可是沒有在抽取式QA任務上提高這麼大，此外做者也作實驗表示隨機mask span的效果是要優於mask 實體或者短語的。

　　綜合來講，SpanBERT在抽取式QA上的效果表現優異，在抽取式QA上是值得嘗試的。

二，RoBERTa

　　論文：RoBERTa: A Robustly Optimized BERT Pretraining Approach

　　GitHub：https://github.com/brightmart/roberta_zh