文中部份內容來自書籍和網絡,部份內容爲本身的理解。但願藉助筆記的方式可以加深本身對該部分知識的掌握,也做爲往後回顧的記錄。算法
不少小夥伴聽到數據挖掘這四個字的時候很困惑,雖然字面意思你們都知道,可是數據挖掘究竟是個什麼東西,須要用到什麼技術來實現卻並不瞭解,下面咱們就來剖析一下,到底什麼是數據挖掘。數據庫
按照慣例,先來一個百度百科的定義:網絡
數據挖掘(英語:Data mining),又譯爲資料探勘、數據採礦。它是數據庫知識發現(英語:Knowledge-Discovery in Databases,簡稱:KDD)中的一個步驟。數據挖掘通常是指從大量的數據中經過算法搜索隱藏於其中信息的過程。數據挖掘一般與計算機科學有關,並經過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。機器學習
根據定義能夠看出,數據挖掘是一個過程結果的稱謂。即主要目標是從數據中挖取隱藏的信息。挖取的過程當中會採用許多技術,包括運用一系列統計方法、模式識別、機器學習(歸根結底都是統計方法啦)等等技術,來實現挖取隱藏信息的目的。函數
引用一張圖來闡明數據挖掘在整個數據處理流程中的階段和做用:學習
數據庫數據
顧名思義,就是存儲在數據庫中的數據。這裏面的數據庫主要指關係型數據庫。3d
數據倉庫
數據倉庫是從多個數據源收集彙總的一個數據存儲庫,跟事務型數據庫的不一樣點在於它是面向主題的,有必定的分類和聚合。而且分爲度量值和維度值即事實表和維度表這樣的區分,便於多維數據分析(OLAP)。視頻
事務數據
事務數據庫的每一個記錄表明一個事務,就是咱們常見的業務系統,訂單系統。例如京東的一次購物就有一條購物信息的記錄,這就是事務。對象
其餘類型的數據
除了以上類型的數據以外的其餘數據,包括時間相關或序列相關的數據、地理空間的數據、文本數據以及圖片和音視頻等。blog
特徵化與區分
數據特徵化是目標數據的通常特性或特性的彙總。
數據區分是將目標類數據對象的一個特性與一個或多個對比類對象的通常特性進行比較。
頻繁模式、關聯和相關性
頻繁模式是數據中頻繁出現的模式
用於預測分析的分類與迴歸
分類(classification):分類規則、決策樹、數學公式、神經網絡等。先從數據中選出分好類的訓練集,在該訓練集上運用數據挖掘技術,創建分類模型,而後對沒有分類的數據進行分類。這裏的類是預約義好的,即個數是肯定的。
下圖中,a是分類規則(IF-THEN規則), b是決策樹, c是神經網絡
迴歸(regression):創建連續值函數模型
相關分析(relevance analysis):在作分類和迴歸以前,先識別與分類和迴歸過程顯著相關的屬性,其餘不相關的屬性能夠不考慮。
統計學
研究數據的收集、分析、解釋和表示。運用統計模型對數據建模、使用假設檢驗來驗證模型等。
信息檢索(IR) 是搜索文檔或文檔中信息的科學。假定搜索的數據是無結構的,主要採用關鍵詞。