用爬蟲分析互聯網大數據行業薪資狀況

前言:隨着互聯網大數據行業的日漸興盛,愈來愈多的人投身其中,也有不少的朋友對此有着濃厚的興趣,想要投身其中。從本期開始咱們將分四期帶你們走進互聯網大數據行業,分別瞭解數據挖掘&機器學習、數據分析、算法&深度學習、數據產品經理這四個不一樣的與大數據相關的職位。算法

數據來源:
咱們將來四期的數據主要來源於拉勾網,目前比較火的招聘網站獵聘、boss直聘、拉勾都有比較多的互聯網職位介紹。咱們基於如下幾點緣由選擇拉勾:1.薪資大多有直接的範圍,較少爲面議 2. 企業數量較全,基本上涵蓋了互聯網相關公司 3.url地址相對比較規整,方便進行批量爬取。數據展現頁面以下:bash

image

該部分使用Python中Selenium爬取,部分代碼以下:app

while
 
True
:
        
try
:
            
for
 j 
in
 range(
15
):
                xpath = 
'//*[@id="s_position_list"]/ul/li['
+str(j+
1
)+
']'
                a = driver.find_element_by_xpath(xpath)
                job_desc.append(a.text)
                job_code.append(a.find_element_by_class_name(
'position_link'
                                ).get_attribute(
'data-lg-tj-cid'
))
            js=
"var q=document.documentElement.scrollTop=10000"
  
            driver.execute_script(js)
            driver.find_element_by_class_name(
'pager_next'
).click()
        
except
:
            
break
複製代碼

薪資狀況:
咱們將從多個角度去了解你們所關注的薪資狀況,首先看一下各個城市的機會多少與平均月薪,以下圖(氣泡大小表示職位數量,柱形圖高度表示平均月薪):機器學習

image

能夠看到,排名第八的武漢職位數量已是北京的四十分之一了,排名靠後的城市職位數量小於20個。這必定程度體現了數據挖掘&機器學習職位在北上廣深杭的集中性,除了五大城市以外,成都、南京、武漢將來也有着無限潛力。
下面看一下不一樣的工做經驗所對應的職位數量與薪資狀況:ide

image

能夠看到拉勾網上大多的工做機會是針對於有工做經驗的求職者。3年、5年工做經驗也成爲了兩個比較重要的門檻,薪資會有明顯的提示,這樣說明了企業對於經驗的看重
下面看一企業對於學歷的要求:學習

image

須要注意的是,拉勾網上的學歷要求爲最低要求,實際工做中你們的平均學歷會遠高於圖上所顯示的。
咱們來結合城市和經驗看一下不一樣城市工做經驗的提高對薪資的提高幅度:大數據

image

北京在各個工做經驗層面的薪資均處於全國領先位置,這也代表了帝都互聯網中心的地位。在工做經驗5-10年的對比上,廣州的漲幅落後於其餘幾大城市,有在廣州工做的朋友能夠與咱們分享下,這是否具備必定的現實性。
各大公司拉勾網提供平均月薪:網站

image

咱們選取了在拉勾網上提供職位最多的十五家公司,BAT&TMD均在其中,也包括了搜狗、微博、網易這些知名互聯網公司。出人意料的是提供職位薪資最高的是新浪微博,衆所周知,一個企業內的實際平均薪資狀況十分複雜,上述數據也只是其在拉勾網上放出職位的狀況,僅供參考。
以上圖表咱們使用ggplot繪製,代碼以下(以公司薪資圖爲例):ui

ggplot(company_com,aes(x=reorder(company,-salary),y=salary,fill=
as
.character(rep(
1
:
5
,each=
3
))))+
  geom_bar(stat=
'identity'
)+
  geom_text(aes(label=round(salary,
2
),y= salary+
1
),size=
5
)+
  theme_wsj()+
  scale_fill_wsj()+
  scale_color_wsj()+
  ggtitle(
'各種公司拉勾網職位平均月薪(K)'
)+
  theme(axis.text.x = element_text(size=
12
),
        axis.text.y = element_blank(),
        plot.title = element_text(hjust=
0.5
,size=
25
),
        legend.position=
'none'
,
        panel.grid = element_blank(),
        axis.title  = element_blank(),
        axis.text = element_text(face=
'bold'
,hjus=
0.8
,size=
10
,angle=
15
)
  )
複製代碼

指望月薪計算:
咱們用線性迴歸模型,簡易地幫助你們計算一下所能夠期待的薪資狀況(數據爲月薪,單位爲K),咱們僅選取了經驗、城市、學歷三個因素,並無考慮交互項、高次項等因素,結果僅供參考,實際狀況要複雜不少:阿里雲

image

所需技能&福利:
想要獲得不錯的年薪,除了上述一些硬件條件,我的所掌握的實際技能實際上會起到更加劇要的做用,咱們就來看一下入職數據挖掘&機器學習所需掌握的技能:

image

順利入職以後,咱們又能夠獲得什麼樣的福利呢,能夠看一下下圖:

image

本文來自阿里雲開發者社區

原文連接:developer.aliyun.com/article/617…

相關文章
相關標籤/搜索