ALBERT詳解

BERT的問題 BERT 發佈後,在排行榜上產生了許多 NLP 任務的最新成果。但是,模型非常大,導致了一些問題。"ALBERT"論文將這些問題分爲兩類: 內存限制 考慮一個包含一個輸入節點,兩個隱藏節點和一個輸出節點的簡單神經網絡。即使是這樣一個簡單的神經網絡,由於每個節點有權重和偏差,因此總共有7個參數需要學習 BERT-large是一個複雜的模型,它有24個隱藏層,在前饋網絡和多頭注意力機制
相關文章
相關標籤/搜索