scikit-learn 如今最新穩定版本爲0.20.0git
提供瞭如下幾個數據集spa
其中數據路徑都在sklearn包下的datasets/data目錄下blog
下面我分別介紹每一個數據集圖片
irisci
iris是個多類別數據集,每一個類別下有50個樣本,特徵4維,且都是實數類型, 適用於分類模型
it
bostonim
預測boston房價, 都是實數特徵,總共13維, 適用於迴歸模型d3
digits數據
數據由8*8的圖片組成,共64維特徵,0-9共10個類別,適用於分類模型db
toy
toy數據6*2, 共2維特徵, 兩類, 適用於簡單的二分類
clf_small
clf共14維特徵,0,1兩類別,適用於簡單二分類模型
reg_small
共14維特徵, 適用於簡單迴歸模型
multilabel
人工製造的30*10維的多標籤數據
sparse-pos
sparse-neg
sparse-mix
zeros