數據科學家與數據工程師

時間 2019-11-16

標籤數據科學家工程師简体版

原文原文鏈接

數據科學家和數據工程師的主要區別，能夠用ETL和DAD的區別來解釋。算法

ETL(提取/變換/載入)是數據工程師，還有數據架構師或數據庫管理員(DBA)的職責。數據庫

DAD(發現/獲取/提煉)是數據科學家的職責。編程

數據工程師每每把重點放在軟件工程、數據庫設計、生產環境代碼上，並確保數據在來源(在那裏它被收集)和目的地之間平穩地流動(在目的地那裏經過統計摘要提取和處理，或經過數據科學算法產生結果，並最終轉移到源或其餘地方)。數據科學家卻須要瞭解數據的流動和如何優化(尤爲是使用Hadoop時)。實際上不是優化數據流自己，而是數據處理的步驟，從數據中提取出價值。數據科學家與工程師和商業人員一塊兒工做，定義指標、設計數據收集方案，並確保數據科學流程與企業數據系統(存儲、數據流)有效地集成。對於在小公司工做的數據科學家，尤爲如此，這也是數據科學家應該能編寫可被工程師重複使用的代碼的緣由。瀏覽器

有時數據工程師也操做DAD，有時數據科學家也操做ETL，但這並不常見，且他們一般是在公司內部才這麼作。例如，數據工程師能夠作一些統計分析，以優化一些數據庫流程，而數據科學家能夠作一些數據庫管理，以管理一個保存彙總信息的、小型的、本地的私有數據庫。服務器

DAD包含如下內容。網絡

發現：識別良好的數據源和指標。有時(與數據工程師和業務分析師一塊兒工做)，對應該建立的數據提出需求。架構

獲取：獲取數據，有時經過API、網絡爬蟲、互聯網下載或數據庫，有時是從內存數據庫獲取數據。機器學習

提煉：從數據中提取信息，作出決策，增長投資回報率，並採起行動(好比，在自動投標系統中，肯定最佳的投標價格)。它包括如下內容。數據庫設計

— 經過建立數據字典和進行探索性分析，對數據進行探索。

— 清洗數據雜質。

— 經過數據彙總進一步提煉數據，有時是經過多層彙總或分層彙總來實現的。

— 對數據進行統計分析(有時會採起像實驗設計這樣的作法，因此在前面的「獲取」階段也能夠進行)，自動和手動均可以。可能須要設計統計模型，也可能不須要。

— 在某些自動過程當中呈現結果或集成結果。

數據科學是計算機科學、商業工程、統計學、數據挖掘、機器學習、運籌學、六西格瑪、自動化和行業知識的交叉點。這些不一樣的領域，加上業務的願景和行動，聚集了一系列的技術、流程和方法。數據科學是鏈接不一樣組件的過程，有助於業務優化，並消除那些下降業務效率的孤島。它也有本身獨特的核心，(例如)包括如下主題。

高級可視化。

分析即服務(AaaS)和API服務。

大規模數據集的聚類與分類。

計算大數據的相關性和R平方。

任何數據庫、SQL或NoSQL都應該有的11個特徵。

快速特徵選擇。

Hadoop/Map-Reduce。

網絡拓撲。

大數據中關鍵詞的相關性。

在常規空間、超平面、球面上或單純形上的線性迴歸。

無模型置信區間。

特徵的預測能力。

無模型的統計建模。

大數據「詛咒」。

MapReduce不能作的事。

請記住，一些僱主尋找的是具有豐富統計知識的。然而，有時招聘經理不知道他真正想要的是什麼，若是你告訴他你的專業知識所帶來的附加價值，你可能會說服他僱用你，哪怕欠缺他們預期的某些技能。對於僱主，招聘Java軟件工程師，再要他們學習統計學，比反過來更容易。

數據科學家與統計學家

許多統計學家認爲，數據科學是關於分析數據的，但它遠不止分析數據。數據科學還涉及實現算法、自動處理數據，並提供自動化的預測和行動，好比：

分析美國宇航局的照片，以尋找新的行星或小行星。

自動報價系統。

自動駕駛(飛機和汽車)。

在Amazon.com或Facebook上推薦書和朋友。

針對全部酒店客房的客戶定製(實時)訂價系統。

在計算化學中模擬用於癌症治療的新分子。

流行病的早期檢測。

(實時)估計美國全部房屋的價值(Zillow.com)。

高頻交易。

爲用戶和網頁匹配谷歌廣告，以最大限度地提升轉化率。

爲全部谷歌搜索返回高度相關的結果。

信用卡交易評分(欺詐檢測)。

稅收欺詐檢測與恐怖行爲檢測。

天氣預報。

全部這些都涉及統計科學和TB級的數據。大多數作這些類型的項目的人，並不稱本身爲統計學家。他們稱本身爲數據科學家。

幾個世紀以來，統計學家一直在收集數據並進行線性迴歸分析。300年前、20年前、如今或在2015年由統計學家進行的DAD，跟現在數據科學家進行的DAD截然不同。關鍵是，最終隨着愈來愈多的統計學家學會這些新技術，而更多的數據科學家學會統計科學知識(採樣、實驗設計、置信區間——不僅是第5章中描述的那些)，數據科學家和統計學家之間的邊界將變得更加模糊。事實上，我能夠看到另外一種數據科學家正在興起：具有深厚統計知識的數據科學家。

數據科學家和計算機科學家的區別是，數據科學家有更強大的統計學背景，特別是在計算統計方面，但有時則是在實驗設計、採樣和蒙特卡洛模擬方面。

數據科學家與業務分析師

業務分析師專一於數據庫設計(高層次的數據庫建模，包括指標定義、儀表盤設計、檢索和生成管理報告，並設計報警系統)、評估各類業務項目和支出的投資回報率及預算問題。一些業務分析師從事營銷或財務的規劃、優化和風險管理工做。許多業務分析師從事高層次的項目管理工做，直接向公司主管彙報。

有些任務也由數據科學家完成，特別是在較小的公司：指標的建立和定義、高層次的數據庫設計(收集什麼樣的數據以及如何收集)，或計算營銷，甚至增加黑客(最近創造的一個詞，來形容一種角色，它可以快速增長公司互聯網訪問流量，擴大公司或產品的影響力，這種工做涉及較強的工程和分析技能)。

數據科學家讓業務分析師有提高空間，例如，幫助將報表製做過程自動化，使數據提取速度更快。數據科學家還能夠教給業務分析師FTP和基礎的UNIX指令知識：ls -l、rm -i、head、tail、cat、cp、mv、sort、grep、uniq -c及管道和重定向操做符(|, >)。而後，能夠在數據庫服務器上編程或安裝一段代碼(業務分析師一般是經過瀏覽器或工具，如Toad或Brio訪問服務器)，以檢索數據。全部的業務分析師都必須作的是：

1.建立SQL查詢(甚至要有可視化工具)，並保存爲SQL文本文件。

2.將它上傳到服務器並運行程序(例如，一個Python腳本，讀取SQL文件並執行它，檢索數據，並將結果存儲在CSV文件中)。

3.輸出結果(CSV文件)到業務分析師的電腦中，作進一步分析。

對於業務分析師和數據科學家，這樣的合做是共贏的。在實踐中，這樣的合做已經幫助業務分析師提取的數據比他們過去所使用的數據要大100倍，並且提取速度快10倍。

總之，數據科學家並非業務分析師，但前者能夠極大地幫助後者，包括幫助業務分析師將任務自動化。此外，若是數據科學家能帶來額外的價值，具有額外的經驗，他更容易找到工做，特別是在只有一個職位預算的公司，當僱主不能肯定是僱用業務分析師(開展總體分析和數據任務)仍是數據科學家(有商業頭腦，能夠執行一些一般分配給業務分析師的任務)時。在通常狀況下，業務分析師是優先聘請的，但若是數據和算法變得過於複雜，也會僱用數據科學家。若是你建立本身的創業公司，你須要扮演兩個角色：數據科學家和業務分析師。

13個真實世界情景中的數據科學應用

如今讓咱們看看13個在真實世界情景下的例子，瞭解現代數據科學家能夠幫助咱們作些什麼。這些例子將有助於你學習如何專一於一個問題和如何形式化一個問題，以及如何仔細評估全部潛在問題——總之，是學習數據科學家在提出解決方案以前，如何定位問題和進行戰略性思考。你也會看到爲何一些普遍使用的技術，如標準迴歸，可能並不適合全部狀況。

數據科學家的思惟方式不一樣於工程師、運籌學專業人士、計算機科學家。雖然運籌學涉及不少分析，但這一領域的焦點是具體業務優化層面，如庫存管理和質量控制。運籌學涉及國防、經濟、工程、軍事等領域。它採用馬爾可夫模型、蒙特卡洛模擬、排隊論、隨機過程，以及(因爲歷史緣由)Matlab和Informatica工具。

數據科學會遇到兩種基本類型的問題。

1.內部數據科學問題，如損壞的數據、粗心的分析或使用不恰當的技術。內部問題不是針對業務而言，而是針對數據科學社區。所以，解決辦法包括訓練數據科學家更好地工做，要他們遵循最佳作法。

2.業務應用問題是現實世界中的問題，所以要尋求解決方案，如欺詐檢測，或識別一個因素是緣由仍是結果。這些可能涉及內部或外部(第三方)數據。