本文來自網易雲社區。算法
百科是這樣定義數據挖掘和數據分析的。數據庫
數據分析:是指用適當的統計分析方法對收集來的大量數據進行分析,提取有用信息和造成結論而對數據加以詳細研究和歸納總結的過程。這一過程也是質量管理體系的支持過程。在實用中,數據分析可幫助人們做出判斷,以便採起適當行動。數據分析的數學基礎在20世紀早期就已確立,但直到計算機的出現才使得實際操做成爲可能,並使得數據分析得以推廣。數據分析是數學與計算機科學相結合的產物。安全
數據挖掘:又譯爲資料探勘、數據採礦。它是數據庫知識發現中的一個步驟。數據挖掘通常是指從大量的數據中經過算法搜索隱藏於其中信息的過程。數據挖掘一般與計算機科學有關,並經過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。網絡
更詳細的將二者進行區分的話,能夠從下面幾個方面進行理解:運維
數據分析能夠分爲廣義的數據分析和狹義的數據分析。廣義的數據分析就包括狹義的數據分析和數據挖掘,咱們常說的數據分析就是指狹義的數據分析。機器學習
數據分析(狹義):工具
(1)定義:簡單來講,數據分析就是對數據進行分析。專業的說法,數據分析是指根據分析目的,用適當的統計分析方法及工具,對收集來的數據進行處理與分析,提取有價值的信息,發揮數據的做用。學習
(2)做用:它主要實現三大做用:現狀分析、緣由分析、預測分析(定量)。數據分析的目標明確,先作假設,而後經過數據分析來驗證假設是否正確,從而獲得相應的結論。大數據
(3)方法:主要採用對比分析、分組分析、交叉分析、迴歸分析等經常使用分析方法。人工智能
(4)結果:數據分析通常都是獲得一個指標統計量結果,如總和、平均值等,這些指標數據都須要與業務結合進行解讀,才能發揮出數據的價值與做用。
數據挖掘:
(1)定義:數據挖掘是指從大量的數據中,經過統計學、人工智能、機器學習等方法,挖掘出未知的、且有價值的信息和知識的過程。
(2)做用:數據挖掘主要側重解決四類問題:分類、聚類、關聯和預測(定量、定性),數據挖掘的重點在尋找未知的模式與規律;如咱們常說的數據挖掘案例:啤酒與尿布、安全套與巧克力等,這就是事先未知的,但又是很是有價值的信息。
(3)方法:主要採用決策樹、神經網絡、關聯規則、聚類分析等統計學、人工智能、機器學習等方法進行挖掘。
(4)結果:輸出模型或規則,而且可相應獲得模型得分或標籤,模型得分如流失機率值、總和得分、類似度、預測值等,標籤如高中低價值用戶、流失與非流失、信用優良中差等。
綜合起來,數據分析(狹義)與數據挖掘的本質都是同樣的,都是從數據裏面發現關於業務的知識(有價值的信息),從而幫助業務運營、改進產品以及幫助企業作更好的決策,因此數據分析(狹義)與數據挖掘構成廣義的數據分析。
數據分析,是對數據的一種操做手段。或者算法。目標是針對先驗的約束,對數據進行整理、篩選、加工,由此獲得信息。
數據挖掘,是對數據分析手段後的信息,進行價值化的分析。
而數據分析和數據挖掘,又是甚至是遞歸的。就是數據分析的結果是信息,這些信息做爲數據,由數據去挖掘。而數據挖掘,又使用了數據分析的手段,周而復始。
數據分析和數據挖掘的最大區別在於,數據分析,是以輸入的數據爲基礎,經過先驗的約束,對數據進行處理,可是不以結論何如爲調整。例如你須要圖像識別,這個屬於數據分析。你要分析人臉。數據經過你的先驗的方法,就是出來個貓臉。你的數據分析也沒有問題。你須要默默的承受結果,並 且尊重事實。所以數據分析的重點在於數據的有效性、真實性和先驗約束的正確性。
而數據挖掘則不一樣,數據挖掘是對信息的價值化的獲取。價值化天然不考慮數據自己,而是考慮數據是否有價值。由此,一批數據,你嘗試對它作不一樣的價值挖掘。評估,則就是數據挖掘。此時對比數據分析,最大的特色就是,你須要調整你的不一樣的先驗約束,再次對數據進行分析。而先驗的約束已經不是針對數據來源自身的特色,例如信噪比處理算法。而是你指望獲得的一個有價值的內容,作先驗的約束。以觀測,數據根據這個約束,是否有正確的反饋。
大數據是互聯網的海量數據挖掘,而數據挖掘更可能是針對內部企業行業小衆化的數據挖掘,數據分析就是進行作出針對性的分析和診斷,大數據須要分析的是趨勢和發展,數據挖掘主要發現的是問題和診斷。
職業上,有數據分析師和數據挖掘師,這二者的類似點可總結以下:
一、都跟數據打交道。
他們玩的都是數據,若是沒有數據或者蒐集不到數據,他們都要丟飯碗。
二、知識技能有不少交叉點。
他們都須要懂統計學,懂數據分析一些經常使用的方法,對數據的敏感度比較好。
三、 在職業上他們沒有很明顯的界限。
不少時候數據分析師也在作挖掘方面的工做,而數據挖掘工程師也會作數據分析的工做,數據分析也有不少時候用到數據挖掘的工具和模型,不少數據分析從業者使用SAS、R就是一個很好的例子。而在作數據挖掘項目時一樣須要有人懂業務懂數據,可以根據業務須要提出正確的數據挖掘需求和方案可以提出備選的算法模型,實際上這樣的人一腳在數據分析上另外一隻腳已經在數據挖掘上了。
事實上沒有必要將數據分析和數據挖掘分的特別清,可是咱們須要看到二者的區別和聯繫,做爲一名數據行業的從業者,要根據自身的特長和愛好規劃本身的職業生涯,以尋求自身價值的最大化。
網易猛獁大數據平臺:網易大數據實踐經驗積累,一站式大數據應用開發和數據管理平臺。內嵌多種數據挖掘算法/包,支持Spark機器學習等,基於業務場景設計的用戶操做界面提升了系統的易用性,結束了平臺命令行運維的繁瑣狀態,數據開發工程師和數據分析師經過簡單拖拽和表單填寫便可完成數據科學相關工做。平臺提供多租戶支持,不一樣租戶之間相互隔離,底層使用Kerberos認證,實現了數據的安全性和隔離性,除了認證系統,利用ranger實現了細粒度權限控制,保證了各個租戶之間只能查看受權訪問的庫、表或者字段,此外,平臺提供審計功能,經過對用戶平臺行爲的記錄、分析和彙報,用來幫助過後生成合規報告、事故追根溯源,提升平臺的安全性。