這是一個好消息,若是你但願在2016年找一份數據科學的工做—在該領域職位空缺的數量正在不斷增長,企業但願利用大數據來得到競爭優點。但事實上,找一份求之不得的數據科學工做就意味着你要具有一些技能的組合,你可能會驚訝學習哪些技能是僱主所最須要的。java
最近,人們在CrowdFlower上針對Linkedin的3490個數據科學職位作了分析,並對最常出現的21個技能進行了排序。有些結果並不那麼使人驚訝—SQL排在最前,而其它的結果多是數據科學領域不斷髮展的領先指標。python
如上所述,SQL是最多見的技能,在Linkedin發佈的全部數據科學工做中佔比達到了57%。Hadoop排在第二,佔比49%。這並不出乎CrowdFlower公司CEO和創始人Lukas Biewald的意料。CrowdFlower是美國硅谷一家從事衆包數據處理的公司。框架
「SQL和Hadoop排在前兩位並沒什麼驚訝的,由於它們自己就是存儲數據的技術」Biewald告訴Datanami(本文轉譯自該網站)。「每一個數據科學家必須知道如何獲取數據。若是你不知如何獲取數據,那你什麼都作不了。」機器學習
在全部數據科學的招聘信息中,python是排在第三名的技能。在CrowdFlower去年關於數據科學家哪些技能是最重要的調查中,python排在R的後面。但在本次招聘信息的調查中(這無疑是更具備前瞻性的範圍),python做爲數據科學的一項關鍵性技能佔比達到了39%。相比之下,R是32%。工具
相比R來講,爲何如今愈來愈多的僱主正在尋找具有python技能的數據科學家?Biewald提出了本身的見解:「python的工具集愈來愈好。已經有不少基於python的統計工具」。「還有一個認識是數據科學不只僅是統計學」oop
設想一下,數據科學家80%的時間花費在數據清理和數據準備上,而只有20%的時間是用來作分析。這或許能夠解釋python忽然出現的緣由。學習
「我認爲Python是作數據清理的語言,而R是作分析的」,Biewald說到。在創辦CrowdFlower以前,他負責領導Yahoo的搜索相關團隊。「因爲數據科學更多的是作數據清洗和準備,python正變得愈來愈重要。它無疑是將數據整理成適合作分析的數據格式最好的語言」大數據
事實上,Java排在第四位讓人有點摸不着頭腦。由於Java自己不是數據科學所要求的掌握一門語言,當你在java中寫Hadoop的時候,它的高配就顯得有道理了。其它跟Hadoop相關的工具都排在前10,包括Hive(31%),MapReduce(22%)和Pig(16%)。網站
對於這份CrowdFlower從Linkedin編輯過來的職位列表,多少有些遺漏。Apache Spark,在上面給出的數據科學技能要求中沒有出現過。Scala也沒有出現過,它是在Spark框架內處理數據的主要途徑之一。翻譯
這多是由於Spark還比較前沿,你們對它知之甚少。「如今周圍對它有不少炒做,但可能仍是太早了」Biewald說到。「在CrowdFlower,咱們已經開始使用它了。我認爲這門技術很棒,但在企業真正使用它的時候會有些滯後」。
Spark和Scala多是數據科學的將來(它們在Alphabet[NASDAQ:GOOGL]公司中獲得大力支持,硅谷的許多高科技公司也在普遍的使用它們)。但不是每一個數據科學項目或團隊都須要走在技術的最前沿才能實現他們的大數據成果。「使人驚訝的是如今不少人都在尋找數據科學家,可是我認爲他們中的不少人是不想走在最前沿的」Biewald說到。
這份CrowdFlower列表中包含了許多知名的數據分析工具,包括SAS(佔比16%),SPSS(10%),Matlab(10%)和Stata(佔比3%)。Biewald認爲這些工具還是有價值的而且在將來一段時間內還會繼續使用。可是他但願它們的市場份額逐漸被那些專門爲大數據設計的新工具所奪走。
「數據科學的角色大於統計學家」他說。「在咱們的腦海裏,這些舊的語言更多的是創建在統計學家的基礎上,它們只是對少許的數據進行分析。而排名在前的Hadoop,python和Java則能夠運行TB級的數據。你能夠用SAS,SPSS,Matlab來作大數據分析,但這不是它們設計的目的」。
不是每一個人都贊成「數據科學」或「數據科學家」應該作什麼以及應該掌握什麼樣技能的定義。事實上,一些人反對使用術語「科學」,而寧願用諸如「應用統計」的短語。(想起了哈佛商業評論稱應用統計學家是21世紀最性感的職業)
但在Biewald和其餘人眼中,處理數據的能力和統計分析的能力同等重要。這就是他對數據科學家進一步給出的定義。
「在過去,咱們處理幾千條記錄的時候不是特別難。可是,當數據量達到數十億條記錄的時候咱們就須要真本事來獲得一個規範的格式,以便咱們進一步作迴歸或機器學習」他說。「對於這種狀況,我想要聘請的是一名掌握python或者是C、Perl、Ruby亦或是一門更多作數據處理而不是作數據分析的語言的數據科學家」
本文由雪晴數據網負責翻譯整理,原文請參考What Data Science Skills Employers Want Now做者Alex Woodie。轉載請註明原文連接http://www.xueqing.cc/cms/article/110