使用Random Forest進行多分類和模型調優

轉自 http://longriver.me/?p=329dom

    1. 解決多分類問題的一些思考:
      1. 存在大量的label數據,存在比較豐富的context信息,因此想訓練 分類模型來實現對樣本類型的預測,目前是三個類別(0,1,2)
      2. 候選擬採用的分類模型:LR,SVM,GBDT, RandomForest.
      3. 這個預測是個 多分類問題,ensemble 思想的 GBDT和 RandomForest方法自然支持多分類,效果可能更好,另外sklearn的庫上有比較成熟的ensemble的方法,能夠直接使用。
      4. 常住點預測的多分類仍是一個 不平衡的多分類(classification imbalance)問題,樣本之間數目比例差別較大。
    2. 分類模型的選擇:使用RandomForest
      1. Random Forest 的原理和使用:
        1. 原理:Random Forest的是一種集合學習的方法(ensemble learning)將多個 分類器組合起來成爲一個 分類器。
        2. Bagging VS Boosting:二者類似之處是,都是將同一類型的分類器組合起來,都是有放回的爲每一個弱分類器隨機抽取必定比例的樣本訓練。不一樣之處是,boosting的訓練是有序的,新的分類器訓練要基於上一個分類器的預測效果。GBDT採用Baoosting技術,RandomForest採用Bagging技術。
        3. RandomForest 的構建:並行構建K棵決策樹,每一個決策樹隨機地選取指定比例p(ie 0.6)的sample和指定比例q(ie 0.5)的feature進行訓練.
        4. RandomForest 的預測:多個弱分類器投票結果融合爲最終分類結果,見圖1
相關文章
相關標籤/搜索