摘要:在隨機森林介紹中提到了Bagging方法,這裏就具體的學習下bagging方法。html
Bagging方法是一個統計重採樣的技術,它的基礎是Bootstrap。基本思想是:利用Bootstrap方法重採樣來生成多個版本的預測分類器,而後把這些分類器進行組合。一般狀況下組合的分類器給出的結果比單一分類器的好,由於綜合了各個分類器的特色。之因此用可重複的隨機採樣技術Bootstrap,是由於進行重複的隨機採樣所得到的樣本能夠獲得沒有或者含有較少的噪聲數據。算法
在訓練集上採樣Bootstrap的方法進行採樣,平均1/3的樣本不會出如今採樣的樣本集合中,這就意味着訓練集中的噪聲點可能不會出如今Bootstrap所採集的樣本集合中,因此與在原始樣本集合上構建分類器相比,Bootstrap方法能夠更容易的得到好的分類器。網絡
在Leo Breiman的論文 :Bagging Predictors 中他研究了不穩定性問題。他指出神經網絡,分類和迴歸樹,線性迴歸等方法的子集選擇都不是穩定的。K-nearest相鄰方法是穩定的。在論文中代表,Bagging方法能夠正常的處理不穩定狀況。實踐和理論證實Bagging方法能夠將一個好的不穩定的過程推向最優化方向發展。學習
Bagging算法流程以下:優化
1:對於給定的訓練樣本集合,經過n次的隨機可重複的採樣,從原始的樣本集合中構建一個Bootstrap樣本集合。rest
2:對於每個Bootstrap樣本集合構建一顆決策樹。htm
3:重複1-2步,獲取更多的決策樹。blog
4:讓每一棵決策樹對輸入量X進行投票get
5:計算全部的投票數目,並以投票最多的一個分類標籤做爲X的類型。it