XLNet 詳解

時間 2021-01-15

標籤人工智能简体版

原文原文鏈接

2020-01-04 13:40:02 BERT 訓練時將部分單詞 mask 起來，使模型能夠利用句子雙向的信息，在很多 NLU 任務上取得很好的效果。但是 BERT 忽略了 mask 單詞之間的關係，且微調過程與預訓練過程不一致 (微調時沒有 mask 的單詞)。XLNet 採用了 PLM (Permutation Language Model) ，將句子隨機排列，然後用自迴歸的方法訓練，從而獲

>>阅读原文<<