Newsgroups數據集介紹

源自如http://qwone.com/~jason/20Newsgroups/windows

20newsgroups數據集是用於文本分類、文本挖據和信息檢索研究的國際標準數據集之一。數據集收集了大約20,000左右的新聞組文檔,均勻分爲20個不一樣主題的新聞組集合。一些新聞組的主題特別類似(e.g. comp.sys.ibm.pc.hardware/ comp.sys.mac.hardware),還有一些卻徹底不相關 (e.g misc.forsale /soc.religion.christian)。electron

comp.graphics
comp.os.ms-windows.misc
comp.sys.ibm.pc.hardware
comp.sys.mac.hardware
comp.windows.xide

rec.autos
rec.motorcycles
rec.sport.baseball
rec.sport.hockey測試

sci.crypt
sci.electronics
sci.med
sci.spacefetch

misc.forsaleidea

talk.politics.misc
talk.politics.guns
talk.politics.mideastspa

talk.religion.misc
alt.atheism
soc.religion.christian.net

 

20newsgroups數據集有三個版本。第一個版本19997是原始的並無修改過的版本。第二個版本bydate是按時間順序分爲訓練(60%)和測試(40%)兩部分數據集,不包含重複文檔和新聞組名(新聞組,路徑,隸屬於,日期)。第三個版本18828不包含重複文檔,只有來源和主題。blog

在sklearn中,該模型有兩種裝載方式,第一種是sklearn.datasets.fetch_20newsgroups,返回一個能夠被文本特徵提取器(如sklearn.feature_extraction.text.CountVectorizer)自定義參數提取特徵的原始文本序列;第二種是sklearn.datasets.fetch_20newsgroups_vectorized,返回一個已提取特徵的文本序列,即不須要使用特徵提取器。ci

相關文章
相關標籤/搜索