轉自 http://longriver.me/?p=329dom
-
解決多分類問題的一些思考:
-
存在大量的label數據,存在比較豐富的context信息,因此想訓練
分類模型來實現對樣本類型的預測,目前是三個類別(0,1,2)
-
候選擬採用的分類模型:LR,SVM,GBDT,
RandomForest.
-
這個預測是個
多分類問題,ensemble 思想的 GBDT和 RandomForest方法自然支持多分類,效果可能更好,另外sklearn的庫上有比較成熟的ensemble的方法,能夠直接使用。
-
常住點預測的多分類仍是一個
不平衡的多分類(classification imbalance)問題,樣本之間數目比例差別較大。
-
分類模型的選擇:使用RandomForest
-
Random Forest 的原理和使用:
-
原理:Random Forest的是一種集合學習的方法(ensemble learning)將多個
弱分類器組合起來成爲一個
強分類器。
-
Bagging VS Boosting:二者類似之處是,都是將同一類型的分類器組合起來,都是有放回的爲每一個弱分類器隨機抽取必定比例的樣本訓練。不一樣之處是,boosting的訓練是有序的,新的分類器訓練要基於上一個分類器的預測效果。GBDT採用Baoosting技術,RandomForest採用Bagging技術。
-
RandomForest 的構建:並行構建K棵決策樹,每一個決策樹隨機地選取指定比例p(ie 0.6)的sample和指定比例q(ie 0.5)的feature進行訓練.
-
RandomForest 的預測:多個弱分類器投票結果融合爲最終分類結果,見圖1