CLUECorpus2020: A Large-scale Chinese Corpus for Pre-training Language Model

  整篇文章,很好理解,建議大家讀一下。 0 摘要 主要是使用CLUECorpus2020,100G語料預訓練模型。他們在小數據及以及大數據集上做了實驗,表明這個語料訓練的模型,更適合中文。他們使用的vcoba_clue是8k,是google的Chinese Bert的1/3 。他們發佈了這個語料訓練的小模型和大模型。大模型能達到最高的水平,小模型在保留大部分精度的情況下加速了訓練,並且預測速度是
相關文章
相關標籤/搜索