數據科學軟件哪家強?祕密都在招聘廣告裏


全文共2367字,預計學習時長5分鐘算法

圖片來源:unsplash.com/@markusspiskeapi

2019年以來,數據科學從業人員的需求持續增加,那麼各大數據科學軟件的流行程度如何呢?哪些是從業人員必需要掌握的「必殺器」?微信

事實上,要想衡量數據科學軟件的普及度或市場份額,最好的方法之一就是統計有多少份招聘廣告將掌握這些軟件做爲應聘要求。招聘廣告以資金做爲支撐,涵蓋豐富信息,所以它們或許是衡量各軟件流行程度的最佳標準。各類軟件職位招聘需求的變化也爲咱們預測將來的就業趨勢提供了契機。機器學習

Indeed.com是美國最大的招聘網站,擁有最豐富的招聘廣告資源,正如其創始人之1、前任CEO保羅·福斯特所說,Indeed.com的主要招聘板塊綜合了來自1000多家招聘網站的資源——包括Monster、CareerBuilder、HotJobs、Craigslist——同時還包括來自上百家報刊、協會以及公司網站的信息。Indeed.com的搜索功能也異常強大,它曾經還會繪製就業趨勢圖,但這個功能顯然已經下線了。oop

用Indeed.com 來搜索職位垂手可得,但用它從大量招聘信息中公平地搜索並對比軟件卻並不容易。有些軟件只應用於數據科學領域(例如SPSS、Apache Spark),而另一些除了數據科學領域,還更大量地應用於與報告撰寫相關的職位(例如SAS、Tableau)。通用語言(例如Python、C、Java)在數據科學工做中應用十分普遍,但大部分使用這些語言的職位實際上和數據科學並沒有關聯。學習

圖片來源:unsplash.com/@lebenslauf大數據

爲了讓結果更加公平,本文設計了一種方法,使搜索只集中於數據科學崗位範圍內。網站

本文的職位數據採集自2019年5月27日和2017年2月24日。有人可能會認爲來自一天內的數據樣本缺少穩定性,但Indeed.com 涵蓋了極其豐富的崗位資源,這使其數據具有了一慣性。在分析2014年和2017年的數據時,咱們將r=0.94, p=0.002。ui

從圖1a中可知,Python的招聘需求量最大,有27374個職位;SQL緊隨其後,爲25877個;接下來是Java和亞馬遜的機器學習軟件ML,都有17000多個崗位,共佔總需求量的25%左右;R和C的需求量爲13000左右。人工智能

人們常常將R和Python相提並論,但對於數據科學職位來講,對R的需求僅爲Python的一半。固然,這並不表明這些崗位類型是相同的,數據分析人員仍然更傾向於使用R,而機器學習的相關工做者則偏心Python。但毋庸置疑的是,Python正在變得愈來愈熱門。

從Hadoop往下,招聘需求量開始緩慢減小。人們也常常將R與SAS做對比,但從圖中來看,前者需求量爲13800,後者僅爲8123。

因爲樣本數量過於龐大,圖中最底部的H2O需求量看起來幾乎爲零,但實際上,其對應的職位數量爲257。

圖1a. 流行度較高的軟件所對應數據科學職位需求量

圖1b將流行度較低的軟件單獨列了出來,以便進一步做比較。其中Mathematica 和Julia位列前兩名,需求量各爲219左右。FORTRAN語言雖然已經很古老,但仍然以195的需求量活躍在數據科學領域。開放源碼軟件WEKA和IBM公司的Waston緊隨其後,都在185左右。從XGBOOST再往下,各軟件需求量呈現出穩定的降低趨勢。

有一些軟件使用的是工做流接口,例如Enterprise Miner、KNIME、RapidMiner以及SPSS Modeler,這些軟件需求量都在50-100。若是用其它方式來衡量,RapidMiner都會領先於和它十分類似的KNIME,但在這張表中,後者需求量比前者多了一倍。Alteryx一樣使用工做流接口,但其需求量卻遠遠領先於其餘同類軟件,並以901的需求量出如今表1a中。

圖1b. 流行度較高的軟件所對應數據科學職位需求量(少於250)

在圖1b中,底端的軟件招聘需求量看似爲零,實際上也確實幾乎爲零,從Systat往下,全部的軟件需求量都在10如下。

值得注意的是,兩張圖中的數值都採集自單個時間點,因此因爲流行度較高的軟件天天的需求量變化都不會太大,圖1a中的相對排名在將來一兩年內都不可能發生太大波動。但圖1b中的軟件需求量都較低,所以這一排名每個月均可能出現變化。不過期間越長,圖1b中的軟件相對於圖1a中的軟件的相對排名也將越趨於穩定。

如今來看從2017年到如今(2019年)各軟件招聘量的變化。圖1c列出了部分軟件在這兩年內需求量的變化百分比。這些軟件在2017年的需求量都至少爲100,不然假如某一軟件在2017年的需求量爲1,而在2019年增長爲5,其增加率高達500%,但這一數據實際上並無什麼意義。圖中標紅的爲愈來愈熱門的、需求量有所增加的軟件,而標藍的則是需求量有所減小的軟件。

圖1c. 2017年至2019年軟件招聘需求量變化百分比(僅限於2017年需求量大於100的軟件)

谷歌旗下的深度學習軟件Tensorflow以523%的增加率位居第一;數據流分析軟件Apache Flink以289%的增加率緊隨其後;接下來是增加率爲150%的H2O;Caffe是另外一款深度學習軟件,其增加率爲123%,這反映出人工智能算法的普及度已很高。

雖然增加率「只有」97%,但Python實際上已經十分熱門,其需求量在兩年間增加了13471,這一數量已經超過了許多其餘軟件需求量的總和。

Tableau增加的需求量爲4784,這一數字相對來講雖然較小,但其增加趨勢和Python也大體類似。

從Julia往下,軟件需求量的增加率開始緩慢降低。出人意料的是,SAS和SPSS的增加率雖然較低,分別爲6%和1%,但整體上仍然呈現出增加的趨勢。


留言 點贊 關注

咱們一塊兒分享AI學習與發展的乾貨

歡迎關注全平臺AI垂類自媒體 「讀芯術」

(添加小編微信:dxsxbb,加入讀者圈,一塊兒討論最新鮮的人工智能科技哦~)

相關文章
相關標籤/搜索