【機器學習之Spark實戰 一】基於Spark的隨機森林分類算法分析

基於Spark的隨機森林分類算法分析 一.隨機森林算法原理 隨機森林是由多個決策樹構成的森林,算法分類結果由決策樹的投票結果得到,其屬於集成學習中的bagging方法。算法的主要原理如下: 1)   假設爲一棵決策樹,其中每個決策樹的抽樣方式爲重 抽樣,獨立抽樣次,每次隨機抽取個樣本,就可組成個訓練集數據集,且它們是相互獨立同分布的。 2)   單棵決策樹的生長原則遵循:每次從數據集的全部特徵屬性
相關文章
相關標籤/搜索