BERT和XLNET的對比

學習鏈接 對比方面: 1.BERT會使用mask的Word的vector和position而xlnet在訓練的時候不使用mask的Word的vector和position 2.XLNET使用多種因式分解進行預測。 這張圖表示什麼意思?QUERY和KEY,VALUE表示什麼? 3.對每層的注意力進行掩碼。 4.由於不知道預測詞的位置,所以需要另外一個模型來預測預測值的位置
相關文章
相關標籤/搜索