源自如http://qwone.com/~jason/20Newsgroups/。windows
20newsgroups數據集是用於文本分類、文本挖據和信息檢索研究的國際標準數據集之一。數據集收集了大約20,000左右的新聞組文檔,均勻分爲20個不一樣主題的新聞組集合。一些新聞組的主題特別類似(e.g. comp.sys.ibm.pc.hardware/ comp.sys.mac.hardware),還有一些卻徹底不相關 (e.g misc.forsale /soc.religion.christian)。electron
comp.graphics |
rec.autos |
sci.crypt |
misc.forsaleidea |
talk.politics.misc |
talk.religion.misc |
20newsgroups數據集有三個版本。第一個版本19997是原始的並無修改過的版本。第二個版本bydate是按時間順序分爲訓練(60%)和測試(40%)兩部分數據集,不包含重複文檔和新聞組名(新聞組,路徑,隸屬於,日期)。第三個版本18828不包含重複文檔,只有來源和主題。blog
在sklearn中,該模型有兩種裝載方式,第一種是sklearn.datasets.fetch_20newsgroups,返回一個能夠被文本特徵提取器(如sklearn.feature_extraction.text.CountVectorizer)自定義參數提取特徵的原始文本序列;第二種是sklearn.datasets.fetch_20newsgroups_vectorized,返回一個已提取特徵的文本序列,即不須要使用特徵提取器。ci