IBM SPSS Modeler隨機森林算法介紹

在以前的文章《Bagging 或Boosting讓你的模型更加優化》中,咱們介紹了能夠經過Bagging或Boosting技術,使得模型更加穩定和準確率更高,那麼今天要介紹的隨機森林算法,自己的算法邏輯已經使用了Bagging技術,來構建多棵樹,最終實現構建「森林」的目的。html

首先咱們先來了解下這個算法,記住幾個要點就能夠:算法

1.在IBM SPSS Modeler中,隨機森林構建的每棵樹,使用的算法是C&RT,關於C&RT算法的介紹能夠參考以前的文章《IBM SPSS Modeler算法系列------C&R Tree算法介紹》;數據庫

2.使用Bagging,每構建一棵樹,都是經過隨機選擇樣本數據來構建(有放回的);架構

3.除了使用Bagging技術,對使用的輸入指標,也隨機選擇。好比說一共有20個輸入指標,每選完一次樣本數據後,會再隨機選擇其中的10個指標來構建樹。jsp

4.最終的預測結果,會綜合前面構建的決策樹經過投票的方式獲得最終的預測結果,若是是數值型的預測,則是取平均值作爲最終的預測結果。分佈式

5.在IBM SPSS Modeler中,隨機森林算法不只支持傳統的關係型數據庫,好比DB二、Oracle、SQL Server等經過ODBC可鏈接的數據庫,也支持Haoop分佈式架構的數據,它能夠生成MapReduce或者Spark,放到Hadoop平臺上去執行,從而提高整個計算效率。oop

圖形圖像處理年底大促

那麼接下來,咱們來看下在IBM SPSS Modeler的隨機森林算法實現客戶的流失預測,能給咱們呈現出什麼樣的結果。性能

首先,咱們建立數據流文件 ,以下圖:大數據

spss

Step1:鏈接數據源Excel文件,文件內容以下:優化

spss

Step2:類型節點設置影響因素及目標,以下圖:

spss

Step3:選擇隨機森林算法,並使用默認參數設置生成模型。

spss

該面板主要涉及到模型構建和樹增加兩方面的參數,包括如下內容:

  • 構建的模型數量:即構建多少棵樹;
  • 樣本大小:是每次隨機選擇的樣本佔原來的百分比,若是是1的話,表明每次選擇的樣本數據與原來的數據量同樣,若是是0.9,則選擇原來的數據量的90%做爲的樣本數據,在處理大數據集時,減小樣本大小能夠提升性能。
  • 是否須要處理不平衡數據:若是模型的目標是標誌結果(例如,流失或不流失) 比率很小,那麼數據是不平衡數據而且模型所執行的 Bootstrap 採樣可能會影響模型精確性。要提升準確性,請選中此複選框;模型隨後會捕獲所需結果中的更大比例部分並生成更好的模型。
  • 使用加權採樣選擇變量: 缺省狀況下,每一個葉節點的變量是使用同一律率隨機選擇的。要將加權用於變量並改進選擇過程,請選中此複選框。
  • 最大節點數:指定容許各個樹中存在的最大葉節點數。若是下一次分割時將超過此數字,那麼樹增加將在進行拆分以前中止。
  • 最大樹深度:指定根節點下方的最大葉節點級別數;即,樣本進行遞歸拆分的次數。
  • 最小子節點大小:指定拆分父節點以後必須包含在子節點中的最小記錄數。若是子節點包含的記錄數少於您輸入的數目,那麼不會拆分父節點。
  • 指定要用於拆分的最小預測變量數:若是是構建拆分模型,請設置要用於構建每一個拆分的最小預測變量數。這防止拆分建立太小的子組。
  • 當準確性沒法再提升時中止構建:要改進模型構建時間,請選擇此選項,以在結果的準確性沒法提升時中止模型構建過程。

在高級面板中,考慮到對樣本數據選擇的質量要求,該算法也涵蓋了數據準備的內容。

spss

數據準備可設置的參數包括:

  • 缺失值最大百分比指定容許任何輸入中存在的缺失值的最大百分比:若是該百分比超過了此數字,那麼將從模型構建中排除此輸出。
  • 排除單個類別多數超過如下值的字段指定單個類別能夠在某個字段中具備的最大記錄百分比:若是任何類別值表示的記錄百分比高於指定值,那麼將從模型構建中排除整個字段。
  • 最大字段類別數:指定字段中能夠包含的最大類別數。若是類別數超過了此數字,那麼將從模型構建中排除此字段。
  • 最小字段變化:若是連續字段的變異係數小於您在此處指定的值,那麼將從模型構建中排除此字段。
  • 分箱數:請指定要用於連續輸入的均等頻率分箱數。可用選項包括:二、四、五、十、20、2五、50 或 100。

Step4:生成客戶流失分析模型。

在生成的模型結果裏面,會包括對輸入指標的重要性排序,以下圖:

spss

模型結果中,也會包含在生成的這些樹中,最頻繁出現的規則集,包括決策規則內容、類別、準確性等內容。這些規則集能夠協助咱們作一些業務解讀。

spss

Step5:能夠經過表格查看預測結果。

spss

Step6:經過分析節點查看模型準確率。

spss

慧都控件網超級促銷月,全場6折起,豪禮搶不停>>>

截止時間:2016年11月30日

更多大數據與分析相關行業資訊、解決方案、案例、教程等請點擊查看>>>

詳情請諮詢在線客服

客服熱線:023-66090381

相關文章
相關標籤/搜索