XLNet 詳解

2020-01-04 13:40:02 BERT 訓練時將部分單詞 mask 起來,使模型能夠利用句子雙向的信息,在很多 NLU 任務上取得很好的效果。但是 BERT 忽略了 mask 單詞之間的關係,且微調過程與預訓練過程不一致 (微調時沒有 mask 的單詞)。XLNet 採用了 PLM (Permutation Language Model) ,將句子隨機排列,然後用自迴歸的方法訓練,從而獲
相關文章
相關標籤/搜索