大數據時代下的數據挖掘基礎

原文地址:算法

http://blog.52sox.com/essenti...工具

在大數據時代下,衍生了一些新的工做職位,好比數據科學家、數據分析師。看着那誘人的薪資,巴不得能早日踏入這個行業。
那麼,今天咱們來對數據挖掘進行一些基礎性的瞭解和認識。
在這裏咱們主要解決如下3個問題:大數據

  1. 什麼是數據挖掘?blog

  2. 數據挖掘主要的方向或工做有哪些?資源

  3. 數據挖掘是怎樣操做的?get

上述的3個問題,分別對應着數據挖掘的定義、基本任務及建模的過程。
下面咱們分別來進行介紹。數據分析

什麼是數據挖掘

數據挖掘是從大量數據(包括文本)中挖掘出隱含的、先前未知的、對決策有潛在價值的關係、模式和趨勢,並用這些知識和規則創建用於決策支持的模型,提供預測性決策支持的方法、工具和過程。
經過數據挖掘有助於企業發現業務的趨勢,揭示已知的事實,預測未知的結果。數據挖掘

數據挖掘的基本任務

數據挖掘的基本任務包括利用分類與預測、聚類分析、關聯規則、時序模式、誤差檢測、智能推薦等方法,幫助企業提取數據中蘊含的商業價值,提升企業的競爭力。數據可視化

數據挖掘的建模過程

數據挖掘的建模過程主要分爲以下幾個方面:基礎

  • 定義挖掘目標

  • 數據取樣

  • 數據探索

  • 數據預處理

  • 數據建模

  • 模型評估

  • 數據可視化

下面咱們逐一進行介紹。

定義挖掘目標

針對具體的數據挖掘應用需求,首先要明確本次的挖掘目標是什麼?系統完成後能達到什麼樣的效果?
所以,咱們必須分析應用領域,包括應用中的各類知識和應用目標,瞭解相關領域的狀況,熟悉背景知識,弄清用戶需求。

數據取樣

在明確了須要進行數據挖掘的目標後,接下來就須要從業務系統中抽取1個與挖掘目標相關的樣本數據子集。而抽取的數據的標準須要遵循如下3個原則,而不是所有的企業數據:

  • 相關性

  • 可靠性

  • 有效性

經過對數據樣本的精選,不只能減小數據處理量,節省系統資源,還可使咱們想要尋找的規律性更加凸顯出來。
而在數據取樣的過程當中,必定要嚴格把控質量。在任什麼時候候都不能忽視數據的質量,即便是從1個數倉庫中進行數據取樣(最新出現了一些新的概念,好比數據湖),也不要忘記檢查其質量。數據挖掘是探索企業運做的內在規律性,若是原始數據質量不高,是很難從中探索規律性。
在這個過程當中,可使用數據質量管理系統來處理這方面的工做,以便提供1個較高質量的數據。
對於數據的抽樣方式,能夠採用以下一些常見的方式:

  • 隨機抽樣:咱們按照隨機的方式進行抽取,在這裏假設數據集中的每1組觀測值都有相同的被抽樣的機率。而後從總樣本中抽取對應比例的數據做爲樣本。

  • 等距抽樣:按照指定間距對指定數據進行抽樣。

  • 分層抽樣:首先先將整體劃分爲若干層次或者說分紅若干個子集。而在每一個層次中的觀測值都具備相同的被選用的機率,可是不一樣的層次的數據有不一樣的機率。這樣的抽樣結果一般具備表明性,模型也具備更好的擬合精度。

  • 按照順序抽樣:按照數據的排列的序號進行抽取指定百分比的數據,好比從整體的第100條開始抽取200條記錄。

  • 分類抽樣:根據數據的某種屬性來選擇數據子集,好比按照客戶名稱分類、地址區域分類來進行抽取。

數據探索

經過以前的步驟咱們獲得了數據取樣的樣本,而在這個過程當中多多少少還有帶有我的對如何實現數據挖掘目標主觀認識而進行操做的。而當咱們拿到了1個樣本時,探索的內容包括:

  • 這個樣本的數據是否能達到咱們原先設想的要求

  • 數據間有沒有什麼明顯的規律和趨勢

  • 數據的屬性之間有沒有什麼相關性

  • 數據能夠區分爲怎樣的一些類別

而對抽取的樣本數據進行探索、審覈和一些加工處理,是保證數據挖掘模型最終質量的要求。通常狀況下,數據的探索主要包括:

  • 異常值的分析

  • 缺失值的分析及處理

  • 相關性分析

  • 週期性分析

數據預處理

當採用的數據維度過大時,如何對數據進行降維處理,如何對缺失數據的處理等內容都是數據預處理須要解決的問題。
因爲採樣的數據經常包含一些噪音、不完整甚至不一致的數據,咱們須要對數據進行一些預處理操做以便改善數據質量,從而最終達到完善最終數據挖掘結果。
而數據的預處理主要包括:

  • 數據篩選

  • 數據變量轉換

  • 缺失值處理

  • 數據標準化

  • 壞數據處理

  • 主成分PCA分析

數據建模

在樣本抽取完成並通過預處理後,接下來須要考慮的問題是,此次要處理的問題屬於數據挖掘應用中的哪類問題(分類、聚類、關聯規則、時序模式或智能推薦),應該選用哪些算法來進行模型的構建。
而這一步是數據挖掘工做的核心環節。

模型評估

經過數據的建模後咱們能夠獲得一系列的分析結果,咱們須要從這些模型中自動找出1個最好的模型,另外須要從業務的角度對模型進行解釋和應用。

數據可視化

數據挖掘的1個操做是對結果進行可視化處理,經過圖表化的方式能夠更爲通俗易懂的解釋一些業務的問題,也能夠更容易發現數據中的規律性。

參考書籍:

《Python Practice of Data Analysis and Mining》

相關文章
相關標籤/搜索