翻譯自:http://blog.yhat.com/posts/python-random-forest.htmlhtml
昨天收到
yhat
推送了一篇介紹隨機森林算法的郵件,感受做爲介紹和入門不錯,就順手把它翻譯一下。python
1 什麼是隨機森林web
1.1 集成學習算法
1.2 隨機決策樹微信
1.3 隨機森林dom
1.4 投票機器學習
2 爲何要用它函數
3 使用方法工具
3.1 變量選擇post
3.2 分類
3.3 迴歸
4 一個簡單的Python示例
結語
前言: 隨機森林是一個很是靈活的機器學習方法,從市場營銷到醫療保險有着衆多的應用。它能夠用於市場營銷對客戶獲取和存留建模或預測病人的疾病風險和易感性。
隨機森林可以用於分類和迴歸問題,能夠處理大量特徵,並可以幫助估計用於建模數據變量的重要性。
這篇文章是關於如何使用Python構建隨機森林模型。
隨機森林能夠用於幾乎任何一種預測問題(包括非線性問題)。它是一個相對較新的機器學習策略(90年代誕生於貝爾實驗室)能夠用在任何方面。它屬於機器學習中的集成學習
這一大類。
集成學習是將多個模型進行組合來解決單一的預測問題。它的原理是生成多個分類器模型,各自獨立地學習並做出預測。這些預測最後結合起來獲得預測結果,所以和單獨分類器的結果相比,結果同樣或更好。
隨機森林是集成學習的一個分支,由於它依靠於決策樹的集成。更多關於python實現集成學習的文檔: Scikit-Learn 文檔。
咱們知道隨機森林是將其餘的模型進行聚合, 但具體是哪一種模型呢?從其名稱也能夠看出,隨機森林聚合的是分類(或迴歸) 樹。一顆決策樹是由一系列的決策組合而成的,可用於數據集的觀測值進行分類 。
引入的隨機森林算法將自動建立隨機決策樹羣。因爲這些樹是隨機生成的,大部分的樹(甚至 99.9%)對解決你的分類或迴歸問題是沒有有意義。
那麼,生成甚至上萬的糟糕的模型有什麼好處呢?好吧,這確實沒有。但有用的是,少數很是好的決策樹也隨之一塊兒生成了。
當你要作預測的時候,新的觀察值隨着決策樹自上而下走下來並被賦予一個預測值或標籤。一旦森林中的每棵樹都給有了預測值或標籤,全部的預測結果將被歸總到一塊兒,全部樹的投票返回作爲最終的預測結果。
簡單來講,99.9%不相關的樹作出的預測結果涵蓋全部的狀況,這些預測結果將會彼此抵消。少數優秀的樹的預測結果將會脫穎而出,從而獲得一個好的預測結果。
隨機森林是機器學習方法中的Leatherman(多功能摺疊刀)。你幾乎能夠把任何東西扔給它。它在估計推斷映射方面作的特別好,從而不須要相似SVM醫同樣過多的調參(這點對時間緊迫的朋友很是好)。
隨機森林能夠在未經特地手工進行數據變換的狀況下學習。以函數f(x)=log(x)
爲例。
咱們將在Yhat本身的交互環境Rodeo
中利用Python生成分析數據,你能夠在here下載Rodeo
的Mac
,Windows
和Linux
的安裝文件。
首先,咱們先生成一下數據並添加噪聲。
import numpy as np import pylab as pl x = np.random.uniform(1, 100, 1000) y = np.log(x) + np.random.normal(0, .3, 1000) pl.scatter(x, y, s=1, label="log(x) with noise") pl.plot(np.arange(1, 100), np.log(np.arange(1, 100)), c="b", label="log(x) true function") pl.xlabel("x") pl.ylabel("f(x) = log(x)") pl.legend(loc="best") pl.title("A Basic Log Function") pl.show()
獲得以下結果:
若是咱們創建了一個基本的線性模型經過使用x
來預測y
,咱們須要做一條直線,必定成都市算是平分log(x)
函數。而若是咱們使用隨機森林算法,它能夠更好的逼近log(x)
曲線從而使得它看起來更像實際的函數。
固然,你也能夠說隨機森林對log(x)
函數有點過擬合。無論怎麼樣,這說明了隨機森林並不限於線性問題。
隨機森林的一個最好用例是特徵選擇。嘗試不少個決策樹變量的一個副產品就是,你能夠檢查變量在每棵樹中表現的是最佳仍是最糟糕。
當一些樹使用一個變量,而其餘的不使用這個變量,你就能夠對比信息的丟失或增長。實現的比較好的隨機森林工具可以爲你作這些事情,因此你須要作的僅僅是去查看那個方法或參數。
在下述的例子中,咱們嘗試弄明白區分成酒或白酒時,哪些變量是最重要的。
隨機森林也很善長分類問題。它能夠被用於爲多個可能目標類別作預測,它也能夠在調整後輸出機率。你須要注意的一件事情是過擬合。
隨機森林容易產生過擬合,特別是在數據集相對小的時候。當你的模型對於測試集合作出「太好」的預測的時候就應該懷疑一下了。避免過擬合的一個方法是在模型中只使用有相關性的特徵,好比使用以前提到的特徵選擇。
隨機森林也能夠用於迴歸問題。
我發現,不像其餘的方法,隨機森林很是擅長於分類變量或分類變量與連續變量混合的狀況。
from sklearn.datasets import load_iris from sklearn.ensemble import RandomForestClassifier import pandas as pd import numpy as np iris = load_iris() df = pd.DataFrame(iris.data, columns=iris.feature_names) df['is_train'] = np.random.uniform(0, 1, len(df)) <= .75 df['species'] = pd.Categorical.from_codes(iris.target, iris.target_names) df.head() train, test = df[df['is_train']==True], df[df['is_train']==False] features = df.columns[:4] clf = RandomForestClassifier(n_jobs=2)y, _ = pd.factorize(train['species']) clf.fit(train[features], y) preds = iris.target_names[clf.predict(test[features])] pd.crosstab(test['species'], preds, rownames=['actual'], colnames=['preds'])
下面就是你應該看到的結果了。因爲咱們隨機選擇數據,因此實際結果每次都會不同。
preds | sertosa | versicolor | virginica |
---|---|---|---|
actual | |||
sertosa | 6 | 0 | 0 |
versicolor | 0 | 16 | 1 |
virginica | 0 | 0 | 12 |
隨機森林至關起來很是容易。不過和其餘任何建模方法同樣要注意過擬合問題。若是你有興趣用R
語言使用隨機森林,能夠查看randomForest包。