AAAI 2020 閱讀論文筆記

時間 2021-01-02

標籤論文筆記简体版

原文原文鏈接

Towards Making the Most of BERT in Neural Machine Translation 目的：如何更好的使用預訓練模型？—>微調效果並不好；上一篇筆記中的方法將BERT embeddings作爲encoder的初始化或者中間的嵌入比較適用於低資源的情況，在高資源情況下由於訓練中的太多更新，會導致遺忘。方法：（1）Asymptotic Distilation：

>>阅读原文<<