【NLP】ALBERT：瘦身版的BERT模型

時間 2021-01-04

原文原文鏈接

引言 BERT是一種預訓練模型，有很多預訓練模型，例如skip-gram，cbow可以用在embedding的時候的預訓練模型，但參數比較少，我們得在加上很多其他層來訓練。ALBERT也是一種預訓練模型。在深度學習中，我們知道把網絡變深可以增加模型的效果，但將BERT模型的網絡變深，hiddne size變大之後將會很大訓練，因爲參數的量級達到了十幾G。所以就引出了ALBERT的核心研究問題：