IBM SPSS Modeler數據庫內建模

IBM SPSS Modeler Server支持對數據庫供應商的數據挖掘工具和建模工具進行整合,其中包括IBM Netezza、IBM DB2 InfoSphere Warehouse、Oracle Data Miner和Microsoft Analysis Services。實現了在IBM SPSS Modeler的分析功能和易用性將與數據庫的功能和性能相結合,同時還兼備數據庫供應商提供的數據庫自有算法。模型在數據庫建立,而後能夠藉助IBM SPSS Modeler界面以正常方式瀏覽模型併爲之評分。html

那麼使用IBM SPSS Modeler訪問數據庫自有算法有什麼優點呢?主要是兩方面:算法

1.數據庫內的算法經常與數據庫服務器緊密集成,這有助於提升性能。數據庫

2.在「數據庫內」構建和存儲的模型不只由可訪問數據庫的應用程序共享,且更易於在這些應用程序中部署。服務器

接下來咱們以Microsoft Analytics Services爲例,介紹如何配置以及使用數據庫內建模功能。網絡

IBM SPSS Modeler支持集成下列Analysis Services算法包括:ide

  • 決策樹
  • 聚類
  • 關聯規則
  • 樸素貝葉斯
  • 線性迴歸
  • 神經網絡
  • Logistic迴歸
  • 時間序列
  • 序列聚類

安裝與配置:工具

在您的機器上,必須安裝如下模塊:性能

  • IBM SPSS Modeler Client
  • IBM SPSS Modeler Server
  • Microsoft Analysis Services,與相應數據庫創建ODBC鏈接

1. 配置IBM SPSS Modeler:優化

在IBM SPSS Modeler中,在菜單欄的工具-->選項-->幫助應用程序,選擇Microsoft面板,以下圖:htm

spss

勾上以後,會在下面的面板節點上多了一項數據庫建模,列出了Microsoft Analysis Services支持的數據庫內建模算法,以下圖:

spss

2. 配置 SQL Server

該配置可實如今數據庫內進行評分。

在 SQL Server 主機上建立如下注冊表鍵:

HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\MSSQLServer\Providers\MSOLAP

爲該鍵添加以下 DWORD 鍵值:

AllowInProcess 1

完成上述更改後,從新啓動SQL Server。

3. 配置Microsoft Analysis Services

創建IBM SPSS Modeler 與Microsoft Analysis Services 進行通訊。

經過MS SQL Server Management Studio 登陸到分析服務器。

訪問「屬性」對話框,右鍵單擊服務器名稱,而後選擇屬性。

選中顯示高級(全部)屬性複選框。

更改如下屬性:

將 DataMining\AllowAdHocOpenRowsetQueries 的值更改成 True(缺省值爲False)。

將 DataMining\AllowProvidersInOpenRowset 的值更改成 [all] (完好省值)。

4. 爲SQL Server 建立 ODBC DSN

經過使用 Microsoft SQL Native Client ODBC 驅動程序,建立一個指向數據挖掘過程當中使用的 SQL Server 數據庫的 ODBC DSN。餘下的驅動程序設置應使用缺省設置。

對於此DSN,請確保選中了使用集成的 Windows 認證。

5. 啓用 SQL 生成和優化

從IBM SPSS Modeler菜單中選擇:工具—>流屬性—>選項—>優化面板,勾選上全部選項內容以下圖:

spss

使用Microsoft Analysis Services 算法生成模型

以上內容配置完成後,便可使用數據庫內的算法生成模型。以下圖:

spss

源節點從SQL Server數據庫中讀取,終端節點又寫回到SQL Server數據庫中,中間使用的是Microsoft的決策樹算法,整個計算過程都在數據庫中實現。

介紹到這裏,咱們就瞭解了,如何使用數據庫內算法進行建模的過程,常常會有朋友問說,使用這裏的決策樹算法和使用IBM SPSS Modeler封裝好的決策樹算法,結果會有什麼不一樣?預測結果固然是會有差別的了。自己決策樹算法就包含多種,像C&R、CHAID、C5.0、QUEST等,每一個算法計算邏輯就不同,所以計算獲得的結果天然也不同,前面咱們已經介紹過C&R、CHAID、C5.0這三種算法,他們核心的差別就是選擇最佳分組變量和分割點的標準,而Microsoft Analysis Services決策樹是使用線性迴歸來肯定決策樹分割位置,它能夠用於分類屬性和連續屬性的預測建模。那麼到底選擇什麼算法爲優呢,前面已經介紹了,使用數據庫內建模的好處,你們能夠綜合考慮,結合實際場景和數據預測結果的評估再作選擇。

SPSS試用版下載請點擊>>>

相關文章
相關標籤/搜索