天然語言處理 數據集(更新於2020.04.19)

天然語言處理 20 newsgroups:分類任務,將出現的單詞映射到新聞組 ID。用於文本分類的經典數據集之一,一般可用做純分類的基準或任何 IR /索引算法的驗證。 路透社新聞數據集:(較舊)純粹基於分類的數據集,包含來自新聞專線的文本。經常使用於教程。 賓州樹庫:用於下一個單詞或字符預測。 UCI‘s Spambase:來自著名的 UCI 機器學習庫的(舊版)經典垃圾郵件數據集。根據數據集的
相關文章
相關標籤/搜索