Bert albert xlnet gtp

時間 2020-05-12

標籤 bert albert xlnet gtp 简体版

原文原文鏈接

《GPT,GPT2,Bert,Transformer-XL,XLNet論文閱讀速遞》性能 Bert缺點 Bert的自編碼語言模型也有對應的缺點，就是XLNet在文中指出的，第一個預訓練階段由於採起引入[Mask]標記來Mask掉部分單詞的訓練模式，而Fine-tuning階段是看不到這種被強行加入的Mask標記的，因此兩個階段存在使用模式不一致的情形，這可能會帶來必定的性能損失；另一個是，Bert

>>阅读原文<<