(原創)大數據時代:基於微軟案例數據庫數據挖掘知識點總結(結果預測篇)

前言html

本篇文章主要是繼續前幾篇Microsoft決策樹分析算法Microsoft聚類分析算法Microsoft Naive Bayes 算法,算法介紹後,通過這幾種算法綜合挖掘和分析以後,對一份擺在公司面前的人員信息列表進行推測,挖掘出這些人員信息中可能購買自行車的羣體,把他們交個營銷部,剩下的事就是他們無情的對這羣團體騷擾、推薦、營銷....結果你懂的!web

本篇也是數據挖掘各層次間最高的產物,推測未知的事物。算法

鑑於各類算法應用場景不一樣,還有用法區別...後期我會整理出文章目錄,供對大數據興趣的同窗查閱。數據庫

應用場景介紹服務器

經過前幾篇文章對挖掘算法的介紹,其實應用的場景大部分是圍繞着已經購買自行車這部分羣體的特徵、行爲分析,對他們的特性進行分類挖掘,對於咱們想要知道那些人會買自行車特徵進行推測,但全部這些的這些都是基於已經發生的事實,而沒有對將來未發生的事情進行操做,這也是本篇文章將要介紹的應用場景,經過對過去發生的事實進行分析後,來推測將要發生的事情。汗....有點八卦算命的味道。函數

固然可能感受本系列對於這個行爲預測有點單一,後續的文章中咱們將繼續開演:工具

一、根據往年曆史產品營銷狀況,推測下一月、下一季度、下一年的營銷業績....,推測服務器下一個發生事故的時間點,推測一個產品的生命週期,固然這是基於時間規律推測,有興趣的能夠推測物價、房價、GDP....甚至下期彩票佈局

二、根據以往產品銷售序列記錄,推測那些產品捆綁銷售比較好,典型的應用場景就是超市貨物擺放、電子商務網站菜單安排、站臺的擺放、還有某些網站上比較惡習的相關推薦、某些聊天工具下面的產品推薦等等大數據

三、根據以往產品投放廣告扥營銷手段所帶來的效益,推測收益比較高的投放方式等網站

四、根據網站中用戶點擊的web流走向,推測用戶興趣所向,典型的應用場景就是:相關新聞推薦、相關圖片介紹,用此來指導網站的合理佈局

有興趣的同窗能夠繼續關注個人博客。下面我們開始本篇內容

技術準備

(1)一樣咱們利用微軟提供的案例數據倉庫(AdventureWorksDW2008R2),兩張事實表,一張已有的歷史購買自行車記錄的歷史,另一張就是咱們將要挖掘的收集過來可能發生購買自行車的人員信息表,能夠參考上一篇文章,不廢話。

(2)VS200八、SQL Server、 Analysis Services沒啥可介紹的,安裝數據庫的時候全選就能夠了。


下面進入主題,一樣咱們繼續利用上次的解決方案,依次步驟以下:

(1)打開解決方案,進入到「數據源視圖」模板,首先我們先重點來分析將要預測的這部分人員有啥信息

右鍵選擇預測數據,我記得第一篇文章介紹過這種用法,咱們來看這部分元數據,這裏咱們採用隨機取樣的方式來查看數據

點擊肯定,咱們直接經過圖表查看信息,這種方式更直接一點,來看看圖;

能夠看到,這張表裏麪包含的信息仍是挺多的,其中有幾個屬性還能能知足我們前幾篇中決策樹分析算法中看到的幾個重要屬性,好比:年齡、地址、年收入、家裏小汽車數量、家裏孩子的數量、是否有房子....等等吧,這些都是咱們要利用的。

固然也能夠經過透視表、透視圖進行更詳細的分析,這裏咱就不展開了。

二、單擊「挖掘結構」,咱們已經創建好的數據挖掘模型,而後進入最後一個神祕的面板:挖掘模型預測

這裏咱們能夠選擇模型,這裏面將列出咱們前幾篇文章中所創建的全部模型:

這裏咱們選擇Microsoft決策樹算法,由於這個算法是涵蓋所有事實的相對最準確的預測模型,而後咱們選擇即將預測的事例表,也就上上面咱們將要預測的人員信息表。曬圖:

單擊肯定,vs會將相同的屬性進行關聯,這裏能夠右鍵這些連接線,進行查看

是吧,都有性別、是否有房、家裏車的數量、家裏孩子數量、年收入等,固然這些能自動關聯的基礎是這些列的名稱是同樣的,若是列名稱不同,咱們能夠手動關聯。

好比這裏咱們單擊 Bike Buyer 單元格並從下拉列表中選擇 ProspectiveBuyer.Unknown。對咱們將要預測的列進行關聯,由於沒有發生咱們只是添加這個空白列,命名爲Unknown。

咱們來看一下關聯以後的結果圖表

第三步,編輯關聯函數

這裏源咱們選擇預測函數

「預測函數」行的「字段」列中,選擇 PredictProbability

「挖掘模型」窗口的上方選擇 [Bike Buyer],並將其拖到「條件/參數」單元格中。

單擊「源」列中的下一個空行,而後選擇 MicrosoftTargetTree,在 MicrosoftTargetTree行的「字段」列中,選擇 Bike Buyer,在 MicrosoftTargetTree行的「條件/參數」列中,鍵入 =1,這裏咱們要預測購買自行車的羣體。

將目標表中的主鍵列添加進入模型

最後的最後咱們將將要預測的表中幾個要顯示的屬性顯示出來,好比說你確定要知道名字,而後電話,而後住址...等等信息,方便之後騷擾...拜訪...推薦等吧

第四步,運行查看結果

直接點擊「結果」選項既能夠看到結果,咱們來看圖:

哈哈....咱們的被虐羣體已經挖掘出來了...Angel...Alyssa..嘿嘿...全部的這些的這些咱們將無情的將他們扔給營銷部去。

咱們點擊保存按鈕,將這部分羣體先保存到數據庫中

好了,到此咱們要挖掘的結果羣體已經出現了。下一步就是驗證結果了。


結果分析

咱們打開原有數據庫,來看看源表中的數據多少,挖掘出來的羣體多少:

嘿嘿...從2059個莫名的羣衆中,咱們找到了咱們最優的客戶,952雖然有點少,可是這將是最優質的客戶!咱們重點營銷的對象。而後咱們來看一下明細:

根據購買機率咱們來了一個排序...上圖能夠看到...名字叫Marvin的這貨的購買自行車的機率居然到達了0.8707,汗...還等着什麼...直接電話過去..若是這廝不買自行車,真對不起我們此次數據挖掘的結果...對不起前幾篇我文章的辛勤付出..對不起人民...對不起黨...呵呵...玩笑了...不買的話後面還有Roy、Albet...等等。 


結語

其實針對這一系列的算法,咱們已經成功預測出來了咱們的結果項,數據挖掘的方式能夠應用到不少場景,甚至於跨領域之間的結合,好比我一個IT人員只要你給我足夠的數據,我能告訴你得糖尿病的病人他們的特徵是什麼?也就是說那種羣體最容易得糖尿病,我會告訴你那種特徵會得糖尿病概率更高,好比:體重?年齡?性別?髮型?....等等吧,甚至我都能推測出某個個體在那個年齡會得糖尿病!這可可能連專治吹牛逼的老中醫也不必定能作到,而咱們一點醫學知識都不懂,數據挖掘就是這麼神奇,這就是大數據的力量。

相信將來的事情會以數據的發展去推測進行的,而這就是大數據時代的到來...

文章的最後我來關聯下前三篇總結的連接:

Microsoft決策樹分析算法總結

Microsoft聚類分析算法總結

Microsoft Naive Bayes 分析算法

好文章記的推薦哦。 

相關文章
相關標籤/搜索