一文看懂集成學習（詳解 bagging、boosting 以及他們的 4 點區別）

時間 2019-11-08

標籤一文看懂集成學習詳解 bagging boosting 以及他們區別欄目 C&C++ 简体版

原文原文鏈接

在機器學習中，咱們講了不少不一樣的算法。那些算法都是單打獨鬥的英雄。而集成學習就是將這些英雄組成團隊。實現「3 個臭皮匠頂個諸葛亮」的效果。html

本文將介紹集成學習的 2 種主要思路：bagging、boosting。算法

什麼是集成學習？

集成學習歸屬於機器學習，他是一種「訓練思路」，並非某種具體的方法或者算法。bootstrap

現實生活中，你們都知道「人多力量大」，「3 個臭皮匠頂個諸葛亮」。而集成學習的核心思路就是「人多力量大」，它並無創造出新的算法，而是把已有的算法進行結合，從而獲得更好的效果。api

集成學習會挑選一些簡單的基礎模型進行組裝，組裝這些基礎模型的思路主要有 2 種方法：dom

Bagging 的核心思路是——民主。機器學習

Bagging 的思路是全部基礎模型都一致對待，每一個基礎模型手裏都只有一票。而後使用民主投票的方式獲得最終的結果。函數

大部分狀況下，通過 bagging 獲得的結果方差（variance）更小。學習

具體過程：3d

從原始樣本集中抽取訓練集。每輪從原始樣本集中使用Bootstraping的方法抽取n個訓練樣本（在訓練集中，有些樣本可能被屢次抽取到，而有些樣本可能一次都沒有被抽中）。共進行k輪抽取，獲得k個訓練集。（k個訓練集之間是相互獨立的）
每次使用一個訓練集獲得一個模型，k個訓練集共獲得k個模型。（注：這裏並無具體的分類算法或迴歸方法，咱們能夠根據具體問題採用不一樣的分類或迴歸方法，如決策樹、感知器等）
對分類問題：將上步獲得的k個模型採用投票的方式獲得分類結果；對迴歸問題，計算上述模型的均值做爲最後的結果。（全部模型的重要性相同）

舉例：rest

在 bagging 的方法中，最廣爲熟知的就是隨機森林了：bagging + 決策樹 = 隨機森林