騰訊AI Lab開源800萬中文詞的NLP數據集 | 資源

時間 2021-01-06

原文原文鏈接

允中發自凹非寺量子位報道 | 公衆號 QbitAI 鵝廠開源，+1 again~ 又一來自騰訊AI實驗室的資源帖。騰訊AI實驗室宣佈，正式開源一個大規模、高質量的中文詞向量數據集。該數據包含800多萬中文詞彙，相比現有的公開數據集，在覆蓋率、新鮮度及準確性上大幅提高。在對話回覆質量預測、醫療實體識別等自然語言處理方向的業務應用方面，騰訊內部效果提升顯著。數據集特點總體來講，騰訊