預訓練語言模型(PLM)是 NLP 領域的一大熱門話題。從 BERT 到 GPT2 再到 XLNet,各類預訓練模型層出不窮,很多同窗感嘆,「大佬慢點,跟不上了……」那麼,這麼多預訓練模型要怎麼學?它們之間有什麼關聯?爲了理清這些問題,來自清華大學的兩位本科同窗整理了一份預訓練語言模型必讀論文列表,還用圖的形式整理出了這些模型之間的複雜關係。
Github 項目:github.com/thunlp/PLMp…git
在這個預訓練模型論文列表項目中,兩位同窗首先給出了一份預訓練語言模型的關係圖:github
圖中列出了 BERT、GPT、XLNet、ERNIE 等你們熟知的模型以及它們之間的關係。以 BERT 和清華大學提出的 ERNIE 爲例,張正彥等人曾在論文中指出,BERT 等預訓練語言模型只能學習語言相關的信息,學習不到「知識」相關的信息。所以他們提出用知識圖譜加強 BERT 的預訓練效果,讓預訓練語言模型也能變得「有文化」。在這張圖中咱們能夠清楚地看到論文中闡述的這種關係,即 BERT+知識圖譜→ERNIE(清華版)。這種簡化版的展現對於初學者理清思路很是有幫助。
算法
除了這張關係圖,兩位同窗還給出了一份預訓練語言模型必讀論文列表。列表分爲三個部分:模型、知識蒸餾與模型壓縮以及相關分析論文。機器之心曾經介紹過其中的一些論文,讀者能夠根據連接找到相關論文中文介紹。
網絡
模型部分包含 34 篇論文,列表以下:app
「知識蒸餾與模型壓縮」部分包含 11 篇論文,列表以下:
其中,機器之心介紹過的論文以下:
分析部分包含 26 篇論文,列表以下:
參考連接: