摘要:在隨機森林之Bagging法中能夠發現Bootstrap每次約有1/3的樣本不會出如今Bootstrap所採集的樣本集合中,固然也就沒有參加決策樹的創建,那是否是意味着就沒有用了呢,答案是否認的。咱們把這1/3的數據稱爲袋外數據oob(out of bag),它能夠用於取代測試集偏差估計方法.html
在論文:web
1:Bias,variance and prediction error for classification rules.<Robert Tibshiranni>算法
2: An Efficient Method To Estimate Baggin’s Generalization Error.<David H.Wolpert and William G.Macready>spring
3:Bagging Predictors,Machine Learning (1996)<Breiman>性能
中,做者都建議利用OOB error 估計做爲泛化偏差估計的一個組成部分,而且Breiman在論文中給出了經驗性實例代表袋外數據偏差估計與同訓練集同樣大小的測試集獲得的精度同樣,這樣也就代表袋外數據(oob)偏差估計是一種能夠取代測試集的偏差估計方法。測試
袋外數據(oob)偏差的計算方法以下:google
對於已經生成的隨機森林,用袋外數據測試其性能,假設袋外數據總數爲O,用這O個袋外數據做爲輸入,帶進以前已經生成的隨機森林分類器,分類器會給出O個數據相應的分類,由於這O條數據的類型是已知的,則用正確的分類與隨機森林分類器的結果進行比較,統計隨機森林分類器分類錯誤的數目,設爲X,則袋外數據偏差大小=X/O;這已經通過證實是無偏估計的,因此在隨機森林算法中不須要再進行交叉驗證或者單獨的測試集來獲取測試集偏差的無偏估計。url