隨機森林的簡單理解

集成學習:算法

經過構建多個分類器來完成學習任務,將多個分類器組合,會得到比單一分類器,更好的泛化能力。學習

集成學習有兩類 Boosting 和Bagging基礎

Boosting:個體分類器之間存在強依賴關係,必須串行生成的序列化方法擴展

Bagging:個體分類器之間不存在依賴關係,能夠同時生成的並行方法序列化

Bagging和隨機森林:並行

Bagging的表明是隨機森林,Bagging的流程是用自助採樣法從數據集中獲得若干個採樣集,基於每個採樣集訓練出一個個體分類器,在將個體分類器組合。方法

 

隨機森林用於分類:數據

隨機森林是採用n個決策樹分類,將分類結果簡單投票獲得最終結果。集合

對決策樹的集成:di

  • 採樣差別:從含m個樣本的數據集中獲得採樣集,是有放回採樣採樣,獲得含有m個樣本的採樣集用於訓練,保證採樣集之間有重複但不徹底同樣。
  • 特徵選擇差別:每一個決策樹的k個分類特徵是在全部特徵中隨機選擇(隨機森林隨機性的體現

隨機森林的參數:

  • 決策樹的個數m(490不到500)
  • 決策樹的特徵個數k(大約8個)
  • 隨機森林的深度
  • 每顆樹的深度 不到10
隨機森林是Bagging的一個擴展。 隨機森林在以決策樹爲基學習器構建Bagging集成的基礎上,進一步在決策樹的訓練過程當中引入隨機屬性選擇(引入隨機特徵選擇)。傳統決策樹在選擇劃分屬性時在當前節點的屬性結合(n個屬性),利用信息論的知識選取一個最優屬性;而在隨機森林中, 對決策樹的每一個節點,先從該節點的屬性集合中隨機選取包含k個屬性的子屬性集,而後選擇最優屬性用於劃分。這裏的參數k控制了隨機性的引入程度。若k=n, 則是通常的決策樹;k=1, 則是隨機選擇一個屬性進行劃分。 隨機森林對用作構建樹的數據作了限制,使的生成的決策樹之間沒有關聯,提高算法效果。
相關文章
相關標籤/搜索