Self-training Improves Pre-training for Natural Language Understanding 筆記

時間 2021-07-13

原文原文鏈接

self-training，是用訓練好的模型的預測結果作爲僞target，混入原訓練集一起訓練，該文的創新在於提出一種文本相似度算法從海量文本中找出和訓練集中的文本相似的文本，然後用訓練好的模型對這批找出的相似的文本進行預測出僞target，然後混一起，然後是BERT fine-tune，提升了fine-tune的效果，似乎跟文章題目說的pre-train沒關係。原文也提到了

>>阅读原文<<