BERT摘要

論文鏈接 詞向量 基本結構 Transformer encoder 預訓練階段 mask language model 15%的選定詞彙 80%mask 10%用隨機詞彙替代 10%保持原樣 next sentence prediction 50%下一句爲真實跟隨句,50%不是
相關文章
相關標籤/搜索