【DataWhale學習記錄15-06】零基礎入門NLP - 新聞文本分類賽題 - 06基於深度學習的文本分類3

BERT 原理: BERT 的創新點在於它將雙向 Transformer 用於語言模型, 之前的模型是從左向右輸入一個文本序列,或者將 left-to-right 和 right-to-left 的訓練結合起來。 實驗的結果表明,雙向訓練的語言模型對語境的理解會比單向的語言模型更深刻, 論文中介紹了一種新技術叫做 Masked LM(MLM),在這個技術出現之前是無法進行雙向語言模型訓練的。 BE
相關文章
相關標籤/搜索