論文淺嘗 | BERT:Pre-training of Deep Bidirectional Transformers

論文筆記整理:王春培,天津大學碩士。 鏈接:https://arxiv.org/pdf/1810.04805.pdf 動機 將預訓練語言表示應用於下有任務現有兩種策略:基於特徵的和基於微調的。文章認爲當前技術限制了預訓練的能力,尤其是基於微調的方法。很多語言模型是單向的,或者特徵抽取器功能不夠強大,這些都限制了下游NLP任務的性能。BERT模型通過使用雙向編碼器來改進基於微調的方法,添加NSP提高
相關文章
相關標籤/搜索