前兩天看到羣裏有人問,什麼是數據挖掘,如今就數據挖掘的概念作一下分析,而且儘可能用大白話說一下數據挖掘究竟是個啥東西,爲啥大數據來了數據挖掘也火了(其實原來就挺火)。算法
先看一上概念:數據庫
數據挖掘(英語:Data mining),又譯爲資料探勘、數據採礦。它是數據庫知識發現(英語:Knowledge-Discovery in Databases,簡稱:KDD)中的一個步驟。數據挖掘通常是指從大量的數據中經過算法搜索隱藏於其中信息的過程。數據挖掘一般與計算機科學有關,並經過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。網絡
數據挖掘說的直白些就是在海量的數據中找到有價值的數據,爲企業經營決策提供依據。機器學習
價值包括如下幾類:學習
一、相關性大數據
相關性分析是指對兩個或多個具有相關性的變量元素進行分析,從而衡量兩個變量因素的相關密切程度。相關性的元素之間須要存在必定的聯繫或者機率才能夠進行相關性分析。相關性不等於因果性,也不是簡單的個性化,相關性所涵蓋的範圍和領域幾乎覆蓋了咱們所見到的方方面面,相關性在不一樣的學科裏面的定義也有很大的差別。用於肯定數據之間的變化狀況,即其中一個屬性或幾個屬性變化的是否會對其它屬性形成影響,影響有多大。對象
下圖就是相關性的示例:blog
二、趨勢get
是指將實際達到的結果,與不一樣時期財務報表中同類指標的歷史數據進行比較 ,從而肯定財務情況,經營成果和現金流量的變化趨勢和變化規律的一種分析方法。能夠經過拆線圖預測數據的走向和趨勢,也能夠經過環比、同比的方式對比較的結果進行說明。it
以下圖所示:
三、特徵
看具體分析的內容是什麼,好比互聯網類,就是用戶畫像這類的需求,根據不一樣的用戶給用戶羣打相應的標籤。
下圖是一個示意圖:
數據挖掘的結果通常有幾種展示形式:
一、表格
最先的一種展示方式,交叉表的展現,以下圖:
二、圖表
相比於圖表更具展示力,讓人很直觀的就能看出數據的總體狀況,以下圖:
三、決策樹
套用俗語,決策樹分類的思想相似於找對象。現想象一個女孩的母親要給這個女孩介紹男友,因而有了下面的對話:
女兒:多大年紀了?
母親:26。
女兒:長的帥不帥?
母親:挺帥的。
女兒:收入高不?
母親:不算很高,中等狀況。
女兒:是公務員不?
母親:是,在稅務局上班呢。
女兒:那好,我去見見。
這個女孩的決策過程就是典型的分類樹決策。至關於經過年齡、長相、收入和是否公務員對將男人分爲兩個類別:見和不見。假設這個女孩對男人的要求是:30歲如下、長相中等以上而且是高收入者或中等以上收入的公務員,那麼這個能夠用下圖表示女孩的決策邏輯:
數據挖掘是計算機學科中的一個交叉研究領域,其研究方法與多個其餘科學緊密相連,如:統計、機器學習、專家系統、信息檢索、社會網絡、天然語言處理和模式識別等等。
這裏簡單的介紹了一下數據挖掘的概念以及數據挖掘的展示形式和數據挖掘到底能作一些什麼,在後面會繼續深和的介紹,以期和你們一塊兒提升。