決策樹知識總結+隨機森林(兩個隨機)

決策樹:以樹形結構表示決策過程的模型。

經常使用於分類過程,但也能夠用於迴歸,分類模型時中間節點爲屬性,葉子節點爲類別算法

特色:bootstrap

  • 決策過程能夠表示成 If Then 形式.
  • 推理過程徹底依賴於屬性變量的取值特色
  • 結束條件:a.數據都屬於同一類別。b.屬性已經用完(此時投票法決定類別)

經常使用的決策樹算法(樹的生成過程)

  1. ID3算法,採用做爲信息增益度度量指標,經過最大化信息增益來選擇屬性。經過在驗證集上的效果來剪枝(預剪枝+後剪枝,防止過擬合的的主要手段)。
gain
  • 缺點:
    • 偏向於選擇取值較多的特徵,例如,生日、身份證(對未知樣本的預測幾乎沒有幫助)。改進:信息增益,C4.5的作法。
  1. 分類迴歸樹 CART(Classification and Regression Trees):二元劃分(二叉樹)。分類時度量指標爲Gini指標(最小化基尼指數)、 Towing;迴歸問題時,度量指標覺得最小平方殘差。直觀來講, Gini(D) 反映了從數據集D 中隨機抽取兩個樣本,其類別標記不一致的機率。所以, Gini(D) 越小,則數據集D 的純度越高。設結點數據集爲 D ,對每一個特徵 A ,對其每一個值 a ,根據樣本點對A=a 的測試爲是或否,將 D 分爲 D1 D2 ,計算 A=a 的基尼指數測試

隨機森林,2個隨機(bootstrap+特徵m)

隨機森林在 bagging基礎上作了 修改:code

  • 應用 bootstrap 法有放回地隨機抽取 k個新的自助樣本集(boostrap),並由此構建 k 棵分類樹(ID3 、 C4.5 、 CART)樣本擾動
  • 隨機選擇屬性子集,個數爲k,而後再從這個子集中選擇一個最優屬性用於劃分。屬性擾動
相關文章
相關標籤/搜索