從分析師到科學家,這份成長祕籍請收好!

全文共4348字,預計學習時長9分鐘python

儘管社會對有豐富經驗的數據科學家的需求愈來愈大,可是大多時候這份職業的描述仍然模糊不清,招聘經理對數據科學和數據分析或工程之間界限的劃定也仍然是寬泛的。算法

數據科學之路(圖自Unsplash,亞歷山大·巴爾蘇科夫)

正如《哈佛商業評論》所言,毋庸置疑,數據科學的熱浪已經席捲了大多數行業,這使得數據科學家成爲21世紀最火爆的職業。儘管對有豐富經驗的數據科學家的需求愈來愈大,可是大多時候對這份職業的描述仍然模糊不清。並且招聘經理對數據科學和數據分析或工程之間界限的劃定還是寬泛的。實體工業規範的缺失使許多渴望轉變爲數據科學角色的專業人士感到困惑。編程

在堅實的數學基礎上站穩腳跟服務器

大多機器學習算法創建在多元微積分和線性與非線性代數學上。技藝精湛的數據科學家可以在數學層面上改變計算機程序,從而在真正意義上推進模型性能的改進。擁有數學技能很重要,尤爲是統計學和線性代數學。擁有學習理解機器學習技術的能力是成爲數據科學家的必要條件。不管是從心理學或數學學位、博士學位仍是在線課程中學到這些東西,這都不重要。微信

通常來講,科學、技術、工程及數學領域 (STEM) 的學士學位已經提供了機器學習和數據科學技術在數學方面所需知識的基礎。許多有抱負的數據科學家因受從事數據科學領域工做必須首先擁有博士學位這一錯誤觀念的影響而止步。目前,有不少數據科學家擁有博士學位,但這不是一條死規定。網絡

祕訣1:關注於本身的能力而非背景。運維

做爲一個數據科學家,經常要將困難的、無窮盡的且定義不妥的問題拆分爲小碎片。這是研究生學習的3到6年間所訓練的技能。機器學習

在教會機器前先自我學習工具

一位數據分析師要報告、總結和解釋過去的和現存的信息以使其存在商業價值。這一點和數據科學家大不相同,數據科學家的做用是以某種方式總結數據,使之可以對將來或既定決策做出預測。數據科學家的核心任務是訓練、測試和優化機器學習算法,因此其技能在機器學習建模方面相當重要。性能

許多發表在媒體和其餘平臺上的博文對起步者來講是完美的,可以在你也許想要把握的具體問題上指導你。另外,如下內容也有幫助:

· 畢曉普——《模式識別與機器學習》(許多人將其稱做機器學習聖經)

https://cds.cern.ch/record/998831/files/9780387310732_TOC.pdf

· 哈爾·達烏姆——《機器學習教程》

http://ciml.info/

· 邁克爾·尼爾森——《神經網絡與深度學習》

http://neuralnetworksanddeeplearning.com/

理論和巨大的方程有時會壓得你喘不過氣,但這不應將你拒之門外。對我奏效的一個方法是編碼的同時進行閱讀。好比,嘗試建立一個單層感知器(神經網絡最簡單的一類),從零開始到徹底理解所讀的內容。

成套學習:書、課程和代碼

祕訣2:將所學的科學方法論應用起來。

有大量有不一樣着重點的在線課程和專家,這些理論和實踐涵蓋了機器學習的基礎:

· 這一行業領軍人物吳恩達的 Coursera 《機器學習教程》(https://www.coursera.org/learn/machine-learning)。這一課程涵蓋了一些基礎知識。相比 Octave/Matlab,嘗試python中的任務更有意義,由於若是擁有更強的 Python 技能,你會在就業市場中得到更好位置。

· 《人工智能速成課》(https://www.fast.ai/)(《給編碼員的機器學習介紹》(http://course18.fast.ai/ml)、《給編碼員的深度學習實操》、《給編碼員的最新深度學習》),帶有極具感染力的心理學教程以及更多實際的重點,由機器學習名家傑里米·霍華德和蕾切爾·托馬斯出品。

· 斯坦福大學分享了一系列人工智能課程資料。好比cs224n 《爲視覺識別創建卷積神經網絡》以及cs231n 《以深度學習進行天然語言處理》。

此處的目的既不在於記住公式和推導方法,也不在於閱讀觀看每一頁書、每一節課。你應該致力於掌握以不一樣方式表述的大多模型和算法的基本概念,例如,神經網絡中的漏碼層、梯度消失、信號/噪聲的關係。掌握將問題和基本概念聯繫起來的能力會使你成爲一個受許多僱主歡迎的優秀數據科學家。

進行科學研究

祕訣3:爲業務開展和問題解決選擇正確的方法論。

數據科學家的真本事是知道應對即將出現的業務問題須要什麼技術和機器學習的方法論。在過去的十年間這一領域蓬勃發展,對知識的持續渴望是做爲數據科學專家閃光的必然要求。強烈建議讀者去閱讀不一樣科技公司和行業領軍人物出版的學術文章和機器學習/人工智能博文。當須要爲沒有直接解決方案的抽象問題解釋提供解決方案的時候,對這類文章的閱讀就會起做用。經過研究已有解決方案尋找正確的解決方案,是這一職業80%的工做。安德烈·卡帕斯在斯坦福cs231n課程上說得好:「不要逞英雄。」商業世界但願你可以迅速交付(或放棄),所以若是有可能你不該該白費力氣作重複的事,而是應該站在巨人的肩膀上。

「若是說我比別人看得更遠,那是由於我站在巨人的肩膀上。」艾薩克·牛頓(1675)
圖源https://me.me/i/3487477

用上編程技能

數據分析師以某種方式使用數據,使之可以幫助企業作出明智的決定,包括結構化查詢語言、Excel以及Tableau 或 Power BI等可視化工具的使用專家。另外一方面,數據科學家須要創建健全的模型以大規模推斷和解決商業問題。所以,他們有必要加強本身的編程技能。

練習Python形式的編程很重要。Python已成爲世界上最受歡迎的譯碼語言,並且擁有無數已經過測試並不斷更新的數據科學庫。不出所料,大多數據科學團隊都在尋找 Python 使用者。因此若是你還不瞭解Python,報名一個在線課程,學一些能讓你前行的基礎知識。不要忽視像PEP8 這樣的樣式導引,而且從一開始實踐的時候就要保持耐心,這樣就會獲得使人滿意的結果。另外,學習如何使用Jupyter 是更快的工做流和數據/模型探究的關鍵。

祕訣4:爲了擁有更好更快的編程技能不斷練習。


由於編程賦予你魔法能量

參加黑客馬拉松,參與數據科學類競賽,參與我的編碼項目是加強編程能力的不一樣途徑。發現並抓住分析結果中產生的數據科學的機會是在目前角色中得到經歷的一種方式。爲預測和異常檢測進行算法是另外能夠承接的工做項目,甚至能夠看成做爲分析師我的提升的一部分。

掌握軟件工程技能

當但願本身的模型能有產出曙光的時候,具有軟件工程技能就會頗有必要。出於方法論和法律緣由,培養以經過自動化實現項目和結果再產出爲目標的編碼態度相當重要。在一個有着成熟數據科學文化的公司,也許一些人在建立原型,一些人在編寫產品代碼,另外一些人在部署代碼。實際上,不論公司規模大小,都不太可能得到所有要求的東西,並且對提交一個數據科學項目來講,僅僅瞭解統計學是遠遠不夠的。

祕訣5:在項目中儘早實現步驟自動化。

所以,初始數據科學桶列表以下:

· 可再生數據管道(例如,在 spark 和python中):你是否曾經再次生成了一個以前作過的分析?建立邏輯數據流(原始(不可變數據 -> 中介(正在進行的工做) -> 已處理(最終性能)),使用 Makefiles 會給你和你的同事們節約不少時間。

· 端到端的訓練及評估自動化:模型在大多時候都是一個活體,新的預測須要產生,數據須要轉變。這意味着再訓練、評估和優化。將模型參數、祕密和隨機種子放入配置文件,將數據集項目拆解成不一樣元素,以及應用 modularitye.g 建立再訓練和評估期間均可以使用的共享性能庫,是有必要的。

· 單元測試覆蓋:你確定但願能有一個無憂無慮的好夢和不受打擾的假期。那麼,爲了確保穩健性,給本身的項目編寫測試就尤其重要。

· 創建應用程序接口提供預測:爲了傳達本身的想法和模型,須要具備相關概念的證據,而且在不少狀況下它與表述性狀態轉移應用程序接口等同。若是使用 Python 之外的另外一種語言不會對你產生干擾,也可使用帶有Swagger UI 的 Flask 和 Flasgger。對文件編制和表述性狀態轉移類網頁服務器來講, Sawgger 會頗有用。

· 爲環境控制系統的部署或生產環境集裝箱化數據科學解決方案:Docker 容許用戶孤立項目並分離其依賴關係,在環境之間移動模型並以徹底相同的方式運行代碼實現100%再生產。這會有助於你和開發運維人員與工程師之間的合做。由於他們能夠在無需瞭解數據科學的狀況下將你的容器用做黑盒。

數據科學家變成列表中的部分勾選圖標

將科學翻譯爲領域語言

做爲數據處理人員和主題專家,你能夠經過機器學習所學的,尋找數據的代理或者讓它成爲一個潛在因素,來克服一些障礙,好比業務缺失和關鍵業績指標認定。數據科學一般會給業務帶來破壞,其結果就是須要將本身的想法傳遞給上級領導以得到必定的支持和資源。有些人可能會說,讓全部企業的股東理解算法是一門藝術。爲了向他人展現其重要性,學會如何解釋本身所建立的內容是我不斷反覆學習的東西。正如畢馬威現任數據科學和工程主管麗貝卡·蒲波在硅谷女人會議上所強調的:「請時刻記住,具備影響力的是你(不是你的代碼),人們不買算法,他們是信任你和你的能力。」所以,請確保將關注點和時間投放在把數學轉譯成針對垂直行業的視覺敘事上。

祕訣6:用來自垂直行業的專業術語談論工做。

正在解釋深度學習的數據科學家(圖源https://memegenerator.net/img/instances/63241330.jpg)

成長時期

在一個新成型的專業領域工做,相比困難,更多的是興奮。尋找一個能讓你成長的團隊,持有海綿般的頭腦對會加快你成功的步伐。理想狀況下,主管會明白你每日的工做,以及你要到達的目標。不然,就要在團隊或者公司以外尋找你可能須要的額外指導,好比校友或者大學教授,亦或人際網中一位友好的數據科學家。見面會或會議也可使人受到啓發,有助於你完成這項任務。

祕訣7:請記住,沒有課本或課程會和導師指導同樣重要。

用唐·柯里昂的聲音讀出來

總結來講,爲了從事數據科學領域的工做,你應該關注的技能是統計學、多元微積分和線性代數、機器學習、編程技能、軟件工程技能以及可視化技能。

斯蒂芬·格林格·雷恩的數據科學韋恩圖解

留言 點贊 關注

咱們一塊兒分享AI學習與發展的乾貨
歡迎關注全平臺AI垂類自媒體 「讀芯術」


(添加小編微信:dxsxbb,加入讀者圈,一塊兒討論最新鮮的人工智能科技哦~)

相關文章
相關標籤/搜索