自然語言處理數據集和性能

1. 數據集 THUCNews中文數據集: THUCNews是根據新浪新聞RSS訂閱頻道2005~2011年間的歷史數據篩選過濾生成,包含74萬篇新聞文檔(2.19 GB),均爲UTF-8純文本格式。我們在原始新浪新聞分類體系的基礎上,重新整合劃分出14個候選分類類別:財經、彩票、房產、股票、家居、教育、科技、社會、時尚、時政、體育、星座、遊戲、娛樂。使用THUCTC工具包在此數據集上進行評測,準
相關文章
相關標籤/搜索