BERT和XLNET的對比

時間 2021-01-13

原文原文鏈接

學習鏈接對比方面： 1.BERT會使用mask的Word的vector和position而xlnet在訓練的時候不使用mask的Word的vector和position 2.XLNET使用多種因式分解進行預測。這張圖表示什麼意思？QUERY和KEY,VALUE表示什麼？ 3.對每層的注意力進行掩碼。 4.由於不知道預測詞的位置，所以需要另外一個模型來預測預測值的位置

>>阅读原文<<