數據挖掘與機器學習的關係

時間 2019-12-05

標籤數據挖掘機器學習關係简体版

原文原文鏈接

本文屬於轉發，之後會在該文基礎上，加入本身的一些想法。算法

我最近看國外的學校，把機器學習和數據發掘分開了，數據發掘主要是跟數據庫打交道，學什麼數據倉庫，用Oracle軟件。而機器學習好像是跟統計更加貼近。數據庫

統計系和計算機系在數據挖掘上作的工做有很大不一樣，個人感受是，統計系把統計方法的一個子集成爲數據挖掘（你看大部分數據挖掘的書所講的不過就是那數十種方法而已），計算機系作的是數據庫挖掘（軟件、數據庫算法）；網絡

至於機器學習呢，我引用牛津的Ripley教授的一句玩笑：機器學習

To paraphrase provocatively, 'machine learning is statistics minus any
checking of models and assumptions'. -- Brian D. Ripley (about the
difference between machine learning and statistics)
useR! 2004, Vienna (May 2004)工具

大體感受就是，經典統計學猛推公式猛證實各類模型性質，機器學習無論這些，它的目的是預測性能更好的算法，這些模型（機器）有個特色，就是能夠自我學習，提升預測性能，按字面意思應該這樣解釋，但實際上並不是全部的機器學習算法都有「學習」的特徵的。因此，我認爲你們只是在給統計學穿外套、作包裝。性能

看過一篇文章認爲機器學習是指那些具體算法，而數據挖掘則還包括創建和維護數據庫，數據清洗，數據可視化以及結果的使用，要綜合使用到數據庫、人機交互、統計分析和機器學習的技術。學習

機器學習和數據挖掘以及統計之間的關係表面上很像，可是也有很是大的區別優化

類似點在於：都是數據分析的工具，三個領域內都有辦法用來分析同一數據，基本原理都很淺顯。設計

不一樣點在於：orm

統計對模型的要求比較苛刻，如謝所引，必定要對模型的各類性質，好比大樣本，小樣本，是否無偏，有多大的variance，是否達到c-r bound，是否一致，最後最好還要有model checking. 機器學習不多關心模型在大樣本的狀況下如何，也不關心estimator的傳統的性質－－這也多是由於他們的模型太過複雜，沒法從數學上證實，這也從一個側面反映了爲何normal distribution在統計中的用處如此之大（有了它，不少模型的性質的研究就便的容易了），也有多是由於他們通常都用在數據量大的地方－－可是機器學習卻挺關心另外一個東西－－error，包括empirical error and structural error。舉個簡單的例子，咱們眼看着神經網絡和支持向量機這兩種網絡模型很流行，很容易懂，頗有用，可是不少人殊不知道它們來自何處，爲何能具備對普遍的數據擁有普遍的用途，爲何精度會很高？－－背後的緣由很簡單，它們兩分別優化的是這兩種error。而機器學習正是着眼於研究這兩種error，經過這兩種error的研究垮身爲一種具備很濃數學味道的學科－－用了大量的分析學－－而這一點也是它與數據挖掘的本質區別－－數據挖掘只須要設計一張魚網（算法），在大量的數據中網到本身須要的模式，不少時候至關的須要運氣。因此不少人都說這是漁夫的工做。

統計學習和機器學習的差異不怎麼大。卻是統計建模和機器學習有些差異。2001年Brieman（是這麼拼的嗎？）寫了一篇文章，叫作statistical modeling：two cultures，介紹了之間的區別。統計建模是基於數據的機率分佈的。所以統計模型中很重視推斷inference，這些推斷，好比假設檢驗，置信區間，都是基於某種分佈假設的。而機器學習最近本的問題，即是要最小化預測偏差的某種度量。這兩種方法對於世界的認知是不一樣的。統計建模，最終的目的，是得到數據的機率分佈，若是數據產生的分佈已知，那麼就天下大吉。統計建模認爲世界能夠用機率分佈來逼近。而機器學習不這麼認爲，它不在意數據產生於什麼分佈，而且認爲這個世界運行的方式是沒法單純用機率分佈來解釋的，好比神經網絡。所以，它的目的，是預測的精準性。這是兩種建模的方式，而歸根結底，是對這個世界認知的方式。

統計學習更傾向於模型，一般會基於某種已知的模型就行計算。而機器學習更傾向於數據自己，每每會經過某些算法（決策樹，聚類，支持向量機，神經網絡等）來從數據自己挖掘信息。

《Encyclopedia of Machine Learning》的觀點是，統計學習是機器學習的一個子類：

Inductive Learning

Synonyms Statistical learning

Definition Inductive learning is a subclass of machine learning that
studies algorithms for learning knowledge based on statistical
regularities. The learned knowledge typically has no deductive
guarantees of correctness, though there may be statistical forms of
guarantees.

固然這個分類沒什麼意義，手段都在互相滲透。統計學家喜歡叫統計學習，計算機科學人士喜歡叫機器學習，即便作的內容都差很少。