在以前的文章《Bagging 或Boosting讓你的模型更加優化》中,咱們介紹了能夠經過Bagging或Boosting技術,使得模型更加穩定和準確率更高,那麼今天要介紹的隨機森林算法,自己的算法邏輯已經使用了Bagging技術,來構建多棵樹,最終實現構建「森林」的目的。html
首先咱們先來了解下這個算法,記住幾個要點就能夠:算法
1.在IBM SPSS Modeler中,隨機森林構建的每棵樹,使用的算法是C&RT,關於C&RT算法的介紹能夠參考以前的文章《IBM SPSS Modeler算法系列------C&R Tree算法介紹》;數據庫
2.使用Bagging,每構建一棵樹,都是經過隨機選擇樣本數據來構建(有放回的);架構
3.除了使用Bagging技術,對使用的輸入指標,也隨機選擇。好比說一共有20個輸入指標,每選完一次樣本數據後,會再隨機選擇其中的10個指標來構建樹。jsp
4.最終的預測結果,會綜合前面構建的決策樹經過投票的方式獲得最終的預測結果,若是是數值型的預測,則是取平均值作爲最終的預測結果。分佈式
5.在IBM SPSS Modeler中,隨機森林算法不只支持傳統的關係型數據庫,好比DB二、Oracle、SQL Server等經過ODBC可鏈接的數據庫,也支持Haoop分佈式架構的數據,它能夠生成MapReduce或者Spark,放到Hadoop平臺上去執行,從而提高整個計算效率。oop
那麼接下來,咱們來看下在IBM SPSS Modeler的隨機森林算法實現客戶的流失預測,能給咱們呈現出什麼樣的結果。性能
首先,咱們建立數據流文件 ,以下圖:大數據
Step1:鏈接數據源Excel文件,文件內容以下:優化
Step2:類型節點設置影響因素及目標,以下圖:
Step3:選擇隨機森林算法,並使用默認參數設置生成模型。
該面板主要涉及到模型構建和樹增加兩方面的參數,包括如下內容:
在高級面板中,考慮到對樣本數據選擇的質量要求,該算法也涵蓋了數據準備的內容。
數據準備可設置的參數包括:
Step4:生成客戶流失分析模型。
在生成的模型結果裏面,會包括對輸入指標的重要性排序,以下圖:
模型結果中,也會包含在生成的這些樹中,最頻繁出現的規則集,包括決策規則內容、類別、準確性等內容。這些規則集能夠協助咱們作一些業務解讀。
Step5:能夠經過表格查看預測結果。
Step6:經過分析節點查看模型準確率。
截止時間:2016年11月30日
更多大數據與分析相關行業資訊、解決方案、案例、教程等請點擊查看>>>
詳情請諮詢在線客服!
客服熱線:023-66090381