本文首發自 產品經理的人工智能知識庫算法
原文地址:《一文看懂隨機森林 - Random Forest(附 4 個構造步驟+10 個優缺點)》dom
隨機森林是一種由決策樹構成的集成算法,他在不少狀況下都能有不錯的表現。機器學習
本文將介紹隨機森林的基本概念、4 個構造步驟、4 種方式的對比評測、10 個優缺點和 4 個應用方向。學習
隨機森林屬於 集成學習 中的 Bagging(Bootstrap AGgregation 的簡稱) 方法。若是用圖來表示他們之間的關係以下:測試
決策樹 - Decision Tree人工智能
在解釋隨機森林前,須要先提一下決策樹。決策樹是一種很簡單的算法,他的解釋性強,也符合人類的直觀思惟。這是一種基於if-then-else規則的有監督學習算法,上面的圖片能夠直觀的表達決策樹的邏輯。rest
隨機森林 - Random Forest | RFcdn
隨機森林是由不少決策樹構成的,不一樣決策樹之間沒有關聯。blog
當咱們進行分類任務時,新的輸入樣本進入,就讓森林中的每一棵決策樹分別進行判斷和分類,每一個決策樹會獲得一個本身的分類結果,決策樹的分類結果中哪個分類最多,那麼隨機森林就會把這個結果當作最終的結果。圖片
優勢
缺點
隨機森林是經常使用的機器學習算法,既能夠用於分類問題,也可用於迴歸問題。本文對 scikit-learn、Spark MLlib、DolphinDB、XGBoost 四個平臺的隨機森林算法實現進行對比測試。評價指標包括內存佔用、運行速度和分類準確性。
測試結果以下:
測試過程及說明忽略,感興趣的能夠查看原文《隨機森林算法 4 種實現方法對比測試:DolphinDB 速度最快,XGBoost 表現最差》
隨機森林能夠在不少地方使用: