論文淺嘗 | BERT：Pre-training of Deep Bidirectional Transformers

時間 2020-12-30

原文原文鏈接

論文筆記整理：王春培，天津大學碩士。鏈接：https://arxiv.org/pdf/1810.04805.pdf 動機將預訓練語言表示應用於下有任務現有兩種策略：基於特徵的和基於微調的。文章認爲當前技術限制了預訓練的能力，尤其是基於微調的方法。很多語言模型是單向的，或者特徵抽取器功能不夠強大，這些都限制了下游NLP任務的性能。BERT模型通過使用雙向編碼器來改進基於微調的方法，添加NSP提高

>>阅读原文<<