決策樹知識總結+隨機森林(兩個隨機)

時間 2020-05-06

標籤決策樹知識總結隨機森林兩個简体版

原文原文鏈接

決策樹：以樹形結構表示決策過程的模型。

經常使用於分類過程，但也能夠用於迴歸，分類模型時中間節點爲屬性，葉子節點爲類別。算法

特色：bootstrap

決策過程能夠表示成 If Then 形式.
推理過程徹底依賴於屬性變量的取值特色
結束條件：a.數據都屬於同一類別。b.屬性已經用完(此時投票法決定類別)

經常使用的決策樹算法(樹的生成過程)

ID3算法，採用做爲信息增益度度量指標,經過最大化信息增益來選擇屬性。經過在驗證集上的效果來剪枝(預剪枝+後剪枝，防止過擬合的的主要手段)。

缺點：
- 偏向於選擇取值較多的特徵,例如，生日、身份證(對未知樣本的預測幾乎沒有幫助)。改進：信息增益比,C4.5的作法。

分類迴歸樹 CART(Classification and Regression Trees)：二元劃分(二叉樹)。分類時度量指標爲Gini指標(最小化基尼指數)、 Towing；迴歸問題時，度量指標覺得最小平方殘差。直觀來講， Gini(D) 反映了從數據集D 中隨機抽取兩個樣本，其類別標記不一致的機率。所以， Gini(D) 越小，則數據集D 的純度越高。設結點數據集爲 D ，對每一個特徵 A ，對其每一個值 a ，根據樣本點對A=a 的測試爲是或否，將 D 分爲 D1 D2 ，計算 A=a 的基尼指數。測試

隨機森林，2個隨機(bootstrap+特徵m)

隨機森林在 bagging基礎上作了修改：code

應用 bootstrap 法有放回地隨機抽取 k個新的自助樣本集(boostrap)，並由此構建 k 棵分類樹(ID3 、 C4.5 、 CART)樣本擾動。
先隨機選擇屬性子集，個數爲k，而後再從這個子集中選擇一個最優屬性用於劃分。屬性擾動

相關文章

相關標籤/搜索

網站主機教程

Docker命令大全

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<