【NLP】ALBERT:瘦身版的BERT模型

引言 BERT是一種預訓練模型,有很多預訓練模型,例如skip-gram,cbow可以用在embedding的時候的預訓練模型,但參數比較少,我們得在加上很多其他層來訓練。ALBERT也是一種預訓練模型。 在深度學習中,我們知道把網絡變深可以增加模型的效果,但將BERT模型的網絡變深,hiddne size變大之後將會很大訓練,因爲參數的量級達到了十幾G。 所以就引出了ALBERT的核心研究問題:
相關文章
相關標籤/搜索