AAAI 2020 閱讀論文筆記

Towards Making the Most of BERT in Neural Machine Translation 目的:如何更好的使用預訓練模型?—>微調效果並不好;上一篇筆記中的方法將BERT embeddings作爲encoder的初始化或者中間的嵌入比較適用於低資源的情況,在高資源情況下由於訓練中的太多更新,會導致遺忘。 方法: (1)Asymptotic Distilation:
相關文章
相關標籤/搜索