注意:這種抽樣的方式會致使有的樣本取不到,大約有\(\lim_{n \to \infty}(1-\frac{1}{n})^n\) = \(36.8%\)的樣本取不到,這部分可用來作測試集。算法
缺點: 失去了模型的簡單性。數組
是一種基於樹模型的bagging算法改進的模型。假定數據集中有\(M\)個特徵和 \(N\)個觀測值。每個樹有放回的隨機抽出\(N\)個觀測值\(m\)(\(m=M\)或者\(m=logM\))個特徵。把每個單一決策樹的結果綜合起來。網絡
因爲GBDT是利用殘差訓練的,在預測的過程當中,咱們也須要把全部樹的預測值加起來,獲得最終的預測結果。多線程
缺點:對於數據量要求比較大,由於要平衡第一層和第二層dom
https://blog.csdn.net/anshuai_aw1/article/details/83040541機器學習