機器學習算法-隨機森林

1、機器學習算法選擇

https://zh.wikipedia.org/wiki/樸素貝葉斯分類器 中提到「2006年有一篇文章詳細比較了各類分類方法,發現更新的方法(如提高樹隨機森林)的性能超過了貝葉斯分類器」,綜合網絡中對二者的評價,選擇使用隨機森林做爲機器學習算法。php

2、數據預處理

(1)分詞:用jieba中文分詞將內容切分紅一組分詞。html

(2)熱獨編碼: 將具備多維意義的數據轉化成類二進制的數據,例如:"咱們"=>包含有"咱們"這組詞的則爲1,不然爲0。詳見:參考資料(4)python

3、Python擴展包sklearn隨機森林算法RandomForestClassifier部分參數說明

參數名稱
默認值 說明
criterion
gini
純度計算方式,詳見:參考資料(1)
max_features
auto
最大特徵數,減少特徵選擇個數m,樹的相關性和分類能力也會相應的下降;增大m,二者也會隨之增大。詳見:參考資料(2)
max_depth
None
決策樹的最大深度,數據量大的狀況下spark項目組建議爲4,來自:https://github.com/apache/spark/blob/master/mllib/src/main/scala/org/apache/spark/mllib/tree/RandomForest.scala


參考資料:git

(1)Spark 隨機森林算法原理、源碼分析及案例實戰 https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-random-forest/github

(2)隨機森林(Random Forest) by poll筆記 http://www.cnblogs.com/maybe2030/p/4585705.html算法

(3)python的決策樹和隨機森林 https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-random-forest/apache

(4)OneHotEncoder進行數據預處理 http://willz.net/2013/07/13/data_preprocessing_via_onehotencoder/網絡


源地址:https://www.mudoom.com/Article/show/id/38.html  By佐柱dom

轉載請註明出處,也歡迎偶爾逛逛個人小站,謝謝 :)機器學習

相關文章
相關標籤/搜索