機器學習算法－隨機森林

時間 2019-11-11

標籤機器學習算法隨機森林简体版

原文原文鏈接

1、機器學習算法選擇

https://zh.wikipedia.org/wiki/樸素貝葉斯分類器中提到「2006年有一篇文章詳細比較了各類分類方法，發現更新的方法（如提高樹和隨機森林）的性能超過了貝葉斯分類器」，綜合網絡中對二者的評價，選擇使用隨機森林做爲機器學習算法。php

（1）分詞：用jieba中文分詞將內容切分紅一組分詞。html

（2）熱獨編碼: 將具備多維意義的數據轉化成類二進制的數據，例如："咱們"=>包含有"咱們"這組詞的則爲1，不然爲0。詳見：參考資料（4）python

參數名稱	默認值	說明
criterion	gini	純度計算方式，詳見：參考資料（1）
max_features	auto	最大特徵數，減少特徵選擇個數m，樹的相關性和分類能力也會相應的下降；增大m，二者也會隨之增大。詳見：參考資料（2）
max_depth	None	決策樹的最大深度，數據量大的狀況下spark項目組建議爲4，來自：https://github.com/apache/spark/blob/master/mllib/src/main/scala/org/apache/spark/mllib/tree/RandomForest.scala