當我進行以數據科學家進行自我介紹時,常常會被問道:「數據科學和機器學習有什麼區別?」或者「這是否是意味着你在研究人工智能?」因此我將經過本文進行回答。html
這些領域確實有不少重疊的地方,但它們並非一個領域:即便很難用語言表達,這些領域的大多數專家也都能直觀的理解特定的工做是如何被分類爲數據科學、機器學習或人工智能的。算法
因此在這篇文章中,我提出了關於這三個領域差別的簡化定義:機器學習
·數據科學產生洞察力。工具
·機器學習作出預測。學習
·人工智能生成行爲。阿里雲
顯然,這不是一個充分條件:不是全部符合該定義的東西都是該領域的一部分。(算命先生作出預言,但咱們不會說他們在作機器學習!)這也不是一個肯定某人角色或者職位頭銜的好方法(我是數據科學家嗎?)。人工智能
可是我認爲這個定義對區分這三種工做是很是有效方法,而且能夠避免你談論它的時候聽起來很傻。spa
數據科學與其餘兩個領域很是不一樣,由於它的目標同時也是人類的一個目標:得到洞察力和理解能力。Jeff Leek對數據科學可以達到的洞察類型有一個很好的定義,包括描述性(「平均客戶端更新的概率爲70%」)探索性(不一樣的銷售人員有不一樣的更新率)和因果關係。設計
一樣,並非全部產生洞察力的都有資格成爲數據科學,數據科學的經典定義是它涉及了統計學,軟件工程和領域專業知識的組合。可是咱們能夠利用這個定義來區分它和ML、AI。它們最主要的區別在於,在數據科學循環過程當中總須要人蔘與:由人理解洞察結果,瞭解大致輪廓,或者從結論中獲益。因此像「下棋算法使用數據科學來選擇下一步」或者「谷歌地圖使用數據科學來推薦駕駛方向」這些說法都是毫無心義的。htm
所以,數據科學的定義強調:
·統計推斷
·數據可視化
·實驗設計
·領域知識
·通信
數據科學家可使用一些很是簡單的工具:他們能夠得到百分比,並根據SQL查詢結果繪製線形圖。也可使用很是複雜的方法:他們可以與分散的數據倉庫合做,分析數以萬億計的記錄,從而開發最前沿的統計技術,創建交互式可視化。可是無論他們使用什麼,目的都是爲了更好地理解他們的數據。
我有幾張阿里雲幸運券分享給你,用券購買或者升級阿里雲相應產品會有特惠驚喜哦!把想要買的產品的幸運券都領走吧!快下手,立刻就要搶光了。
我認爲機器學習屬於預測領域:「給出具備特定特徵的實例X,推測Y」。這些預測多是關於將來的(預測這個病人是否會進入敗血症),也多是關於預測對計算機來講不那麼明顯的特性(預測這個圖像是否會有鳥)。幾乎全部的Kaggle競賽均可以被認爲是機器學習相關的問題:他們提供一些訓練數據,而後看看競賽者可否對新的例子作出準確的預測。
數據科學和機器學習有不少的重疊之處。例如,均可以用邏輯迴歸來獲取對有關關係的看法(越富裕的人越有可能購買咱們的產品,因此咱們應該改變咱們的營銷策略)而且能夠作出預測(該用戶有53%的概率購買咱們的產品,因此咱們應該多向他們推銷)。