基於sklearn的分類器實戰

時間 2019-11-11

標籤基於 sklearn 分類器實戰简体版

原文原文鏈接

已遷移到我新博客，閱讀體驗更佳基於sklearn的分類器實戰
完整代碼實現見github：click mepython

1、實驗說明

1.1 任務描述

1.2 數聽說明

一共有十個數據集，數據集中的數據屬性有所有是離散型的，有所有是連續型的，也有離散與連續混合型的。經過對各個數據集的瀏覽，總結出各個數據集的一些基本信息以下：git

連續型數據集: 
1. diabets(4:8d-2c)
2. mozilla4(6:5d-2c)
3. pc1(7:21d-2c)
4. pc5(8:38d-2c)
5. waveform-5000(9:40d-3c)
離散型數據集:
1. breast-w(0:9d-2c-?)
離散-連續混合型數據集:
1. colic(1:22d-2c-?)
2. credit-a(2:15d-2c-?)
3. credit-g(3:20d-2c)
4. hepatitis(少許離散屬性)(5:19d-2c-?)

舉一個例子說明，colic(1:22d-2c-?)對應colic這個數據集，冒號前面的1表示人工標註的數據集序號(在代碼實現時我是用序號來映射數據集的)，22d表示數據集中包含22個屬性，2c表示數據集共有3種類別，'?'表示該數據集中含有缺失值，在對數據處理前須要注意。github

2、數據預處理

因爲提供的數據集文件格式是weka的.arff文件，能夠直接導入到weka中選擇各種算法模型進行分析，很是簡便。可是我沒有藉助weka而是使用sklearn來對數據集進行分析的，這樣靈活性更大一點。因此首先須要瞭解.arff的數據組織形式與結構，而後使用numpy讀取到二維數組中。算法

具體作法是過濾掉.arff中'%'開頭的註釋，對於'@'開頭的標籤，只關心'@attribute'後面跟着的屬性名與屬性類型，若是屬性類型是以'{}'圍起來的離散型屬性，就將這些離散型屬性映射到0，1，2......，後面讀取到這一列屬性的數據時直接用建好的映射將字符串映射到數字。除此以外就是數據內容了,讀完一個數據集的內容以後還須要檢測該數據集中是否包含缺失值，這個使用numpy的布爾型索引很容易作到。若是包含缺失值，則統計缺失值這一行所屬類別中全部非缺失數據在缺失屬性上各個值的頻次，而後用出現頻次最高的值來替換缺失值，這就完成對缺失值的填補。具體實現能夠參見preprocess.py模塊中fill_miss函數。數組

3、代碼設計與實現

實驗環境:網絡

python 3.6.7app

configparser 3.7.4dom

scikit-learn 0.20.2函數

numpy 1.15.4工具

matplotlib 3.0.3

各個分類器都要用到的幾個模塊在這裏作一個簡要說明。

交叉驗證: 使用sklearn.model_selection.StratifiedKFold對數據做分層的交叉切分，分類器在多組切分的數據上進行訓練和預測
AUC性能指標: 使用sklearn.metrics.roc_auc_score計算AUC值，AUC計算對多類(二類以上)數據屬性還需提早轉換成one hot編碼，使用了sklearn,preprocessing.label_binarize來實現，對於多分類問題選擇micro-average
數據標準化: 使用sklearn.preprocessing.StandardScaler來對數據進行歸一標準化，實際上就是z分數