CLUECorpus2020: A Large-scale Chinese Corpus for Pre-training Language Model

時間 2021-01-16

原文原文鏈接

整篇文章，很好理解，建議大家讀一下。 0 摘要主要是使用CLUECorpus2020，100G語料預訓練模型。他們在小數據及以及大數據集上做了實驗，表明這個語料訓練的模型，更適合中文。他們使用的vcoba_clue是8k,是google的Chinese Bert的1/3 。他們發佈了這個語料訓練的小模型和大模型。大模型能達到最高的水平,小模型在保留大部分精度的情況下加速了訓練,並且預測速度是

>>阅读原文<<