天然語言處理數據集（更新於2020.04.19）

時間 2020-07-20

標籤天然語言處理數據更新 2020.04.19 简体版

原文原文鏈接

天然語言處理 20 newsgroups：分類任務，將出現的單詞映射到新聞組 ID。用於文本分類的經典數據集之一，一般可用做純分類的基準或任何 IR /索引算法的驗證。路透社新聞數據集：（較舊）純粹基於分類的數據集，包含來自新聞專線的文本。經常使用於教程。賓州樹庫：用於下一個單詞或字符預測。 UCI‘s Spambase：來自著名的 UCI 機器學習庫的（舊版）經典垃圾郵件數據集。根據數據集的

>>阅读原文<<