Bert論文閱讀

前言 Google又出新做Bert:Pre-training of Deep Bidirectional Transformers,在11項測試中取得了牛逼的效果。主要是將以前的Transform加上更爲泛化的預訓練,獲得了很好的語言表達模型。html 預訓練方法 1) input data 預訓練分爲兩塊,一個是隨機遮擋詞的預測;一個是下句話的預測。git 2) Masked Language
相關文章
相關標籤/搜索