轉載自http://reader.dashuai.net/?p=100node
數據清理類工具
DataWranglergit
Google Refinegithub
統計分析類工具web
The R Project for Statistical Computing算法
TimeFlow數據庫
數據展示類工具服務器
Impure架構
代碼幫助類工具
地圖相關數據展現工具
文本類相關處理工具
社交網絡類工具
數據挖掘有什麼用途?數據挖掘和數據倉庫之間有什麼樣的聯繫?數據挖掘和市場調研、數據分析又有什麼樣的聯繫?……
一 掃盲篇
研究結果代表,企業處理的數據每5年就會成倍增加,致使企業數據過分的重複和不一致,如何在這些數據中獲取有利信息就促進數據挖掘技術發展。
一、數據挖掘的相關概念
謝邦昌教授在《數據挖掘 clementine應用實物》一書中提到,數據挖掘是指尋找隱藏在數據中的信息(如趨勢、特徵及相關性)的過程,也就是從數據中挖掘信息或知識KDD(knowledge discovery in databases)。
數據挖掘能夠說匯合瞭如下六個領域:
a 數據庫系統-數據倉庫和聯機分析(OLAP)
b 機器學習
c 統計與數據分析方法
d 可視化
e 數學規劃
f 高性能計算
數據挖掘和數據倉庫有什麼樣的聯繫?我我的的理解是數據倉庫的創建是數據挖掘的前提條件,由於數據倉庫裏的數據一般是整理過的數據,也就是咱們一般所說的Clear Data,而從這些有用的數據中找出咱們感興趣或是有價值的信息的過程就是數據挖掘。
二、數據挖掘的應用領域
數據挖掘對每一個公司來講都是一個重要的策略性計劃,於是將它設爲高度機密,因此要調查各公司用數據挖掘到底作什麼樣的事至關不容易。這裏簡單的說說數據挖掘的幾個經常使用領域:
a 客戶檔案管理方面,一般公司都但願找出客戶的一些共同特徵,但願能借此預測哪些人可能成爲他們的客戶,以幫助營銷人員找到正確的營銷對象,以下降營銷成本,提升成功率
b 購物籃分析,一般用來幫助零售從業人員瞭解客戶的消費行爲,譬如哪些客戶會一塊兒購買,哪些客戶會購買某種產品後隔段時間會購買另一種產品,利用數據挖掘,零售從業人員能夠更有效的決定進貨量或庫存量,商品如何排放等等
c 客戶關係管理,公司一般能夠分析,本來一些屬於本身的客戶,後來卻轉變成競爭對象的客戶,分析這一部分羣體的特徵,再根據這些特徵到現有客戶數據中找出有可能轉向的客戶,而後設計出相應的方案來留住這一部分客戶羣體(畢竟找一個新客戶的成本要比留住一個原有客戶的成本高的多)
除此以外,數據挖掘還運用到其餘許多行業,如金融業、電信業、零售業、互聯網等等,其經常使用狀況彙總以下:
數據挖掘的應用
以客戶爲中心
以操做爲中心
以研究爲中心
終身價值
購物籃分析
檔案細分
保留
目標市場
採集
知識門戶
交叉銷售
活動管理
電子商務
盈利能力分析
訂價
欺詐檢測
風險評估
投資組合管理
員工離職
現金管理
生產效率
網絡性能
製造工藝
組合化學
遺傳研究
流行病學
三、數據挖掘的進行步驟及經常使用分析方法
每一個人數據挖掘過程都不同,但能夠確定的一點是他們大部分時間都花在準備數據階段,而其餘步驟也只是這樣一個大體流程:
1)理解數據與進行的工做
2)獲取相關知識和技術
3)整合與檢查數據
4)去除錯誤與不一致的數據
5)發展模型與假設
6)實際數據挖掘工做
7)測試與驗證所挖掘的數據
8)解釋與使用數據
數據挖掘分析方法是利用數據來創建一些模仿真實世界的模型,利用這些模型來描述數據中的模式以及關係,經常使用的數據挖掘分析方法主要有:
1)用於分類\聚類的分析方法,如:因子分析、判別分析、聚類分析等,除此以外還有決策樹(經常使用分類方法爲CART<classification and regression trees>及CHAID<chi-square automatic interaction detector>兩種)
2)推算預測分析方法,如迴歸、時間序列、神經網絡等
3)序列規則分析方法,如關聯規則、序列規則等
四、主要數據挖掘軟件
目前市面上比較經常使用的數據挖掘軟件有不下於30種(固然都是老外開發的,目前爲止還沒發現國人開發的此類軟件),例如MLC++,Clementine,Darwin,Intelligent Miner,SAS data Mining,S-plus,matlab等等。下面簡單的介紹幾種:
1)SPSS Clementine,SPSS公司發行,此工具結合了多種圖形用戶接口分析技術,包含神經網絡、關聯規則及規則生成技術。
2)Oracle Darwin,甲骨文公司發行,其優勢是支持多重算法,可在多種主從式架構上執行,服務器端能夠是單處理器、同步多處理器或大量平行處理器,定位在中、大範圍的執行
3)SAS Enterprise Miner,SAS公司發行,目前數據挖掘市場上的領導者,適用於企業在數據挖掘的發展及整個CRM的決策支持應用
4)IBM Intelligent Miner,IBM公司發行,是市場上最大容量及功能強大的工具,在顧客評定報告中它的總體效能是最好的,定位於企業數據挖掘解決方案的先鋒。
2、數據挖掘與市場分析
「統計分析給您以先機,分析報告給您後見之明,數據挖掘給您以洞察」這樣一句話來形容市場分析與數據挖掘的關係再確切不過了。然而數據挖掘只是用來幫助業務分析策劃人員從數據中發現各類可能的假設,這些假設是否正確,是否有價值還有待肯定,爲了獲得更加肯定的答案,企業不得不花費一些時間和經從來驗證這些假設,從而致使企業提出調研目的,針對相關假設設計相應的調查問卷,根據調查結果,運用統計分析得出分析報告,從而推出一系列新的發展方案,發展新的客戶,回頭又繼續數據挖掘,造成一個數據挖掘–市場調研–統計分析的良性循環。
除此以外,統計分析還給數據挖掘提升了許多新的分析方法,如神經網絡技術應用中的—機率分析網(PLN),挖掘方法上的—貝葉斯網絡,遺傳算法中的—機率進化算法(PMEA)等等。
3、從事數據挖掘工做需掌握的相關知識
一、數據庫技術 數據挖掘是在大量數據中找出本身感興趣或有用信息的過程,這其中涉及到數據庫操做的相關功能,那麼掌握一種數據庫以上的知識就成了必然,這也是爲何目前國內許多企業數據挖掘從業人員是計算機專業的緣由。
二、相關行業知識 也就是前面數據挖掘步驟中有提到相關知識和技術,沒有行業背景知識,純技術作出來的分析報告就好像"無根"之水
三、掌握一種以上的數據挖掘軟件 其實許多的數據庫也提供了相應的分析功能,好比前面提到的IBM、Oracle 數據挖掘軟件
四、相關統計及市場分析知識 沒有這些知識作出來的報告可能犯下或多或少的錯誤,從而使分析結果出現嚴重的誤差