ALBERT詳解

時間 2021-01-19

標籤深度學習简体版

原文原文鏈接

BERT的問題 BERT 發佈後，在排行榜上產生了許多 NLP 任務的最新成果。但是，模型非常大，導致了一些問題。"ALBERT"論文將這些問題分爲兩類：內存限制考慮一個包含一個輸入節點，兩個隱藏節點和一個輸出節點的簡單神經網絡。即使是這樣一個簡單的神經網絡，由於每個節點有權重和偏差，因此總共有7個參數需要學習 BERT-large是一個複雜的模型，它有24個隱藏層，在前饋網絡和多頭注意力機制

>>阅读原文<<