（原創）大數據時代：基於微軟案例數據庫數據挖掘知識點總結（Microsoft 聚類分析算法）

時間 2019-11-17

標籤原創數據時代基於微軟案例數據庫數據挖掘知識總結 microsoft 分析算法欄目 Microsoft 简体版

原文原文鏈接

本篇文章主要是繼續上一篇Microsoft決策樹分析算法後，採用另一種分析算法對目標顧客羣體的挖掘，一樣的利用微軟案例數據進行簡要總結。html

應用場景介紹算法

經過上一篇中咱們採用Microsoft決策樹分析算法對已經發生購買行爲的訂單中的客戶屬性進行了分析，能夠獲得幾點重要的信息，這裏作個總結：數據庫

一、對於影響購買自行車行爲最重要的因素爲：家中是否有小汽車，其次是年齡，再次是地域大數據

二、經過摺疊樹對於比較想買自行車的顧客羣體特徵主要是：家裏沒有車、年齡在45歲一下、不在北美地區、家裏也沒有孩子（大米國裏面的屌絲層次）、spa

一樣還有就是家裏有一輛車、年齡在37到53之間、通勤距離小於10Miles，家裏孩子少於4個，而後年收入在58000$以上（大米國的高富帥了）3d

其實決策樹算法最主要的應用場景就是分析影響某種行爲的因素排序，經過這種算法咱們能夠知道某些特定羣體他們都會有幾個比較重要的屬性，好比家裏有沒有車、年齡等，可是咱們想要分析這部分特定羣體其特有屬性就無法作到，而要分析這種特定羣體所共同含有的共同屬性就須要今天咱們的Microsoft聚類分析算法出場了，簡單點講就是：物以類分、人以羣分，經過聚類分析算法咱們要找到那些將要買自行車的顧客羣裏都有哪些屬性，好比當咱們晚上進入廣場會看到，廣場大媽一羣、兒童紮在一羣、打籃球的一羣、還有一羣情侶在廣場邊幽暗的樹林裏等等，而他們這些團隊之間是有差異的，若果要去賣兒童玩具...那種羣體是你最想靠近的天然而然了。htm

技術準備blog

（1）一樣咱們利用微軟提供的案例數據倉庫（AdventureWorksDW2008R2)，兩張事實表，一張已有的歷史購買自行車記錄的歷史，另一張就是咱們將要挖掘的收集過來可能發生購買自行車的人員信息表，能夠參考上一篇文章排序

（2）VS、SQL Server、 Analysis Services沒啥可介紹的，安裝數據庫的時候全選就能夠了。圖片

下面咱們進入主題，一樣咱們繼續利用上次的解決方案，依次步驟以下：

（1）打開解決方案，進入到「挖掘模型」模板

經過上面能夠看到已經存在一種決策樹算法了，咱們來添加另一種算法。

二、右鍵單擊「結構」列，選擇「新建挖掘模型」，輸入名稱便可

點擊肯定，這樣咱們新創建的聚類分析就會增長在挖掘模型中，這裏咱們使用的主鍵和決策樹同樣，一樣的預測行爲也是同樣的，輸入列也是，能夠更改。

下一步，部署處理該挖掘模型。

結果分析

一樣這裏面咱們採用「挖掘模型查看器」進行查看，這裏挖掘模型咱們選擇「Clustering」，這裏面會提供四個選項卡，下面咱們依次介紹，直接曬圖：

一樣這裏面咱們選擇要發生購買自行車的羣裏，顏色最深的爲最可能購買自行車的羣裏，圖中箭頭咱們已經顯示出來了，一樣咱們也能夠找到最不可能買自行車的一羣人，也就是「分類四」，他們之間線條的強弱表示關聯關係強弱，固然這裏爲了好記咱們能夠給他們改更名，直接選擇類，右鍵重命名。

如上圖，下面咱們要作的就是要分析這些羣體有啥特徵了，固然咱們最關心的爲：最想買自行車的一羣人、不想買自行車的也能夠分析，至於不明真相的羣體、路人羣體甲、乙...這些個都是些打醬油的了，咱們就不分析了。

咱們打開「分類剖面圖」看看：

哈...這幾類羣體的特徵已經展現出來了，若是玩數據久了，會對圖表有一種直觀敏銳，對數據也要保持一種特定的嗅覺。

咱們從新整理一下這個「分類剖面圖」的列的順序，根據咱們關注的強弱橫向依次展開，如圖：

圖中第一列爲屬性，好比年齡、小汽車的數量、家裏孩子數量等，第二列爲各個屬性的圖例，這裏面是根據屬性的值類型進行的圖例展現，通常分爲兩種，好比年齡在庫中存儲的值類型一般分佈在1-100之間，故圖例採起分段取樣，造成一個從小到大的柱狀體，中間含有有一個棱形圖，棱形圖的大小表明屬性中羣體的密集度，好比上圖的顧客集中在29歲到48歲之間：

固然若是該屬性值不爲離散的屬性值的話，就採起不一樣顏色的原型圖表表示，專業術語叫作：直方圖，面板中有一個地方能夠設置直方圖條數，也就是該屬性值所取得的最多屬性值個數。好比：家裏孩子的總數，通常分爲0個、1個、2個、3個、其餘...

納尼！...上面這個圖例中沒有3個孩子的，這裏面的圖例也是經過數據採樣獲得，只取量比較多的做爲展現，上圖說明家裏有3個孩子的比較少。

下面咱們分析一下最想購買自行車的羣體特徵：

首先從圖中能夠看到年齡集中在40來歲，平均爲43.65歲

我汗....最小年齡爲29歲.平均年齡43.65歲..最大年齡81.79歲..估計微軟案例數據庫中的數據也不必定可靠，抑或者米國的人羣特徵就這樣三十歲如下的人都不喜歡騎自行車反而80多歲的人還買自行車，或者這個店就不賣給三十歲如下的顧客，固然有可能年輕人沒有買的，大部分是老人給孩子買的，這個就不分析了..反正數據是這麼說的，有圖有真相！

家裏沒有小汽車的或者只有一輛小汽車的購買的機率大部分集中在0.3以上...而大於一輛小汽車的家庭購買自行車的機率就不多...家裏四輛車的機率則少到了0.003...接近不會買的機率了...

家裏有一個孩子的機率最高0.483...家裏沒有孩子的根本不會買自行車...我去...基本驗證了我上面的推測，看來大部分人是買自行車給子女騎的，沒有孩子就不買了，上圖中的沒有子女的購買自信車的機率爲0.000，還有一個屬性能夠研究下，那就是是否有房子，看圖：

嗯...想買車的羣體家裏大部分都有房子，也就說有固定住所，他們買自行車的機率高達0.854...而沒有房子的則少到可憐...爲0.146。

別的屬性也能夠經過該屬性面板進行分析，能夠分析出咱們想要的那部分羣體的屬性特徵，有針對性的作到定向營銷。

以上只是經過分類的剖面圖進行了局部分析，VS還提供了另一個專門列舉屬性特徵的面板：分類特徵。

咱們點擊開這個面板看看：

經過上面的圖表展現，已經將咱們想要了解的這部分羣體，赤裸裸的展示出來了，嗯，來瞅瞅..法國職業：技術人員、英國職業：熟練的手工、都有房子、地區：北美地區、年齡範圍：41-48歲之間、年收入：35459.9-57244.9之間、家裏都有一個孩子等等.....固然別的羣體也能夠分析，這裏就不展現了。

一樣咱們也能夠針對某一個屬性，有針對性的對兩組羣體進行比較，這裏就應用到另外一個面板：「分類對比」，我忽然想到能夠針對「性別」這個屬性，把IT行業和非IT行業進行對比，估計結果應該毛骨悚然...呵呵...題外話，下面看圖：

尼瑪...上圖的圖片我看了下..發現有一個屬性值特別有趣，年收入在10000-29950之間的基本是不打算買自行車了，然而年收入到了29950-1700000,想買自行車的機率就高不少了，上圖中能夠看到。嗯...自行車也是車...想要買車仍是得有錢才行。

準確性驗證

最後咱們來驗證一下今天這個聚類分析算法的準確性如何，和上篇文章中的決策樹算法有何差距，咱們點擊進入數據挖掘準確性圖表：

上圖中咱們能夠看到，今天此次用的聚類分析算法，分數爲0.72，比上一篇的決策樹算法0.87，仍是略有差距的，固然不能僅以分數來評比兩種算法的好壞，不一樣的挖掘需求須要不一樣的挖掘模型，一樣不一樣的挖掘模型就須要不一樣的挖掘分析算法。

不過經過上圖有幾點須要特別注意的，數據分析算法的準確性是要取決於基礎數據的多少，也就是說數據量越大，你所分析的數據結果將越準確，一樣這也是將來大數據的概念的造成，沒有數據任何牛逼的算法也沒有招，而當數據達到必定量級別以後，任務個別的不許確也將被大數據的事實所掩蓋，這就是大數據時代的意義所在。

固然凡事都得拿數聽說話，不能憑空亂想，上圖中的理想模型也就是紅色的那條就驗證了我剛纔的說法，當數據整體達到50%之後，咱們的數據挖掘結果就是100分，100分啥含義？徹底正確！也就是說你下一步想幹啥是咱們徹底能推測出來的，固然在數據量少的時候，咱們就無能爲力了，咱們所利用的任何數據挖掘算法理論上講將無限的接近這條紅線（理想模型），將永遠沒法超越，而這接近的過程就是咱們大數據時代的推進。

固然還有一條最爛的隨機預測模型它永遠的以50%的機率神通常存在着...由於對於買自行車這件事只有兩種結果，一個是買，另外一個就是不買，它所預測準確的機率永遠就是一半一半...50%.....。

對大數據有興趣的不要忘記你的「推薦」哦。

曬一句數據挖掘的力量：小樣，我就知道你會這麼作！