原文做者:Andrew Ste
原文連接:How to Become More Marketable as a Data Scientisthtml
這個題目有些莫名其妙,2019年,隨着數據科學對業界的影響愈來愈大,數據分析師的市場需求蹭蹭上漲,做爲數據分析師的你,在市場上已經很搶手了。撰寫本文的時候,光 LinkedIn 上有關數據科學的崗位需求就已經超過 14 萬個了。編程
不過,把握業界的脈搏,關注最快、最有效的數據科學解決方案,仍會對你們有所幫助,爲此,咱們的數據驅動團隊,CV Compiler,分析了數據科學市場職位空缺,界定了 2019 年的數據科學招聘趨勢。網絡
下圖展現了 2019 年僱主對數據科學工程師的技能要求:框架
本圖數據引自 Stack Overflow、AngelList 等網站上列出的 300 個數據科學職位空缺。其中一些職位需求裏的關鍵字有重複。機器學習
注:請你們注意,本次調研是從僱主角度出發的,而非從數據科學工程師的角度。
數據科學雖然對業務知識極其重視,但有關框架和支持庫的技術與趨勢仍值得你們關注。工具
根據《 2018 年大數據分析市場調研報告
》顯示,大型企業的大數據採用率從 2015 年的 15%,到 2018 年已經飆升了 59%。能夠看出大數據工具的流行趨勢在不斷增加。若是不考慮 Apache Spark 和 Hadoop(下一段裏單獨討論),最流行的是 MapReduce(36個)與 Redshift(29個)。oop
不把 Spark 與雲存儲的流行趨勢考慮在內的話,Hadoop 的時代尚未終結。所以,有些公司仍但願應聘者熟練應用 Apache Pig(30個)、HBase(32個)等技術,HDFS(20個)仍有崗位需求。學習
隨着傳感器、移動設備、物聯網技術(18個)應用的增加,公司對從實時數據處理中獲取信息愈來愈重視,愈來愈多的公司須要僱傭流式分析平臺如 Apache Flink(21個)技術人員。大數據
準備數據與選擇模型參數是數據科學家的核心任務。數據挖掘(128個)這個詞在公司的 JD 裏特別流行。有些公司很是重視超參數調優(21個)。不過,數據科學家要特別關注特徵工程。在模型構建早期,選擇模型最適合的特徵,是決定模型是否成功的關鍵。網站
處理數據,並從中提取有價值的信息是很是重要的能力,不過,數據可視化(55個)也是數據科學家要掌握的重要技能,把工做成果展現給團隊成員或客戶對數據科學家來講是相當重要的能力。說到數據可視化工具,做爲僱主的公司傾向於 Tableau(54個)。
在這些崗位需求裏,還包括了 AWS(86個)、Docker(36個)、Kubernetes。可見,軟件開發行業的趨勢對數據科學領域的影響也挺大的。
技術很是重要,但在數據科學領域,有些東西比寫代碼更重要。從「輸出數據」中提取信息,好比,生成最終數據集、找出趨勢、數據可視化、基於數據進行陳述報告等,這種能力很是重要。此外,還包括用淺顯易懂的形式展示分析結果,站在受衆的角度看問題 -- 若是聽報告的是一羣博士生,陳述的方式是一種形式,若是聽報告的是 CXO,陳述的方式就是另外一種樣子了,他們纔不關心編程,他們關心的只有結果與投資回報率。Carla Gentry
數據科學家
Analytical Solution 博主數據快照對了解市場現狀頗有用,但並不適於展現發展趨勢,只依據數據快照推斷將來很難。我要說的是 R 的使用量在持續穩定地降低(MATLAB 也同樣),Python 在數據科學家社區裏的應用則持續上揚。Hadoop 與大數據榜上有名只不過是由於業界的慣性:Hadoop 將會消亡(沒人投資了),大數據也再也不是熱炒的話題。要不要花時間再去學習 Scala 如今還不清楚:谷歌官方支持 Kotlin(也是一種 JVM 語言),但它學起來比 Scala 更簡單,學習曲線也更陡峭。TensorFlow 的將來也讓人堪憂:學術界已經把興趣轉向了 PyTorch,要知道,學術界對數據科學領域的影響遠超其它行業。
以上觀點僅表明我我的,不表明高德納諮詢公司。Andriy Burkov
高德納(Gartner)公司 機器學習主管
百頁機器學習手冊做者PyTorch 利用 GPU 驅動強化學習的 CUDA 張量運算操做。與 TensorFlow 將每一個操做綁定至一個設備不一樣,它能夠同時在多 GPU 上並行編碼。PyTorch 還能夠構建動態圖,有效地展現遞歸神經網絡。基於 Theano 的 TensorFlow 與基於 Torch 的 PyTorch 相比,只能生成靜態圖,並且更難學。TensorFlow 對應的開發者與研究人員社區雖然更大,但 PyTorch 構建機器學習儀表盤可視化工具比 TensorBoard 更好,也更簡單,並且,PyTorch 在調試與調用 matplotlib 及 Seaborn 進行數據可視化時更 Pythonic。絕大多數 Python 調試工具都能調試 PyTorch,TensorFlow 則有本身的調試工具,tfdbg。
Ganapathi Pulipaka 博士
Accenture 首席數據科學家
50 位頂級技術領袖獎得主數據科學「崗位」與數據科學「職業」不一樣。崗位列表闡明瞭市場所需的技能,但說到職業,就我所知,最重要的技能就是學習能力。數據科學領域發展迅速,若是想一直保持成功,數據科學家必須能快速學習新的技能、工具與專業知識。不斷挑戰本身,遠離溫馨區,纔是數據科學家要乾的事情。
Lon Riesberg
Data Elixir 創始人
前 NASA 職員
數據科學是一個發展迅速、複雜難解的行業,在這個行業裏,業務經驗與技術能力同等重要。但願這篇文章讓您在這兩方面都有所收穫,知道哪些技能更有價值,助您在 2019 年變得更搶手!