經常使用於分類過程,但也能夠用於迴歸,分類模型時中間節點爲屬性,葉子節點爲類別。算法
特色:bootstrap
最大化信息增益來選擇屬性
。經過在驗證集上的效果來剪枝(預剪枝+後剪枝,防止過擬合的的主要手段)。分類迴歸樹 CART(Classification and Regression Trees):二元劃分(二叉樹)。分類時度量指標爲Gini指標(最小化基尼指數)、 Towing;迴歸問題時,度量指標覺得最小平方殘差。直觀來講, Gini(D) 反映了從數據集D 中隨機抽取兩個樣本,其類別標記不一致的機率。所以, Gini(D) 越小,則數據集D 的純度越高。設結點數據集爲 D ,對每一個特徵 A ,對其每一個值 a ,根據樣本點對A=a 的測試爲是或否,將 D 分爲 D1 D2 ,計算 A=a 的基尼指數
。測試
隨機森林在 bagging基礎上作了 修改:code
樣本擾動
。屬性擾動