洞見世界(1): 拉勾網大數據告訴你, 會計最高月薪達33k!

 

前言:html

     小李是個頗有上進心的女孩, 老闆讓她瞭解下會計這個行業的薪資狀況, 她不清楚怎麼去作, 因此找了筆者, 噹噹噹, 而後這一份薪資報告就出來了^_^.(小李爲虛擬人物)python

 

    by  璀璨者張健, 專一於爬蟲和數據分析, App/Web/小程序, 區塊鏈等領域mysql

 

簡述:git

 

    首先說明這篇文章的數據來源,是爬蟲爬取了拉勾網"數據分析師"這一職位信息所得來的。而且主要分析了數據分析師整體薪酬狀況、不一樣城市薪酬分佈、不一樣學歷薪酬分佈、北京上海工做等地經驗薪酬分佈狀況、薪資最高的20個職位, 平均薪資最高的10個公司。 前面的內容多的是數據處理,  想看結果的能夠直接跳到分析結論!github

 

閱讀大綱:sql

  • 數據分析報告json

  • 分析結論小程序

  • 思考總結 微信

  • 數據採集(附錄)python爬蟲

  • 數據清洗與處理(附錄)

 

>>> 第一部分: 拉勾網會計職位分析報告

 

數據分析

  • 整體薪酬狀況

 

 

 

從上面的圖中,大部分職位集中在4k~14k以前, 10k左右的職位最多, 高薪的職位相對較少,  薪資特別低的有1k,2k,3k這三個薪資級別, 這三個薪資級別應該是  實例 崗位

 

 

  • 不一樣城市薪酬分佈狀況

 

 

 

 

北京市薪酬分佈中位數大約在8.8k,居全國首位。其次是杭州、烏魯木齊,上海, 深圳,  能夠看出對於會計職位來講, 薪資最高的是北上深杭和烏魯木齊, 北上廣杭是國內的大城市, 而烏魯木齊的薪資中位數在8k, 可能的緣由是這個城市治安很差, 職位多, 可是人少

 

  • 不一樣學歷的薪酬分佈

 

 

 

 

 

咱們能夠看出, 學歷對於薪資的影響仍是很大的, 本科與大專的薪資差距在2k左右,  差很少在20%左右,會計專業對於學歷的要求比較低, 沒有哪家公司要求碩士學位或者博士學位

 

  • 北京上海深圳杭州職位不一樣薪酬分佈狀況

若是你想去北京和上海這兩個城市發展的朋友們,用數據告訴你去哪一個城市應該怎麼發展

 

 

 

從圖中咱們可以得出,在北京會計的職位是較多的,  而後發展的方向是會計主管, 高級會計和會計經理,   薪資都在10k以上,  其中會計經理薪資達到了15k

杭州, 上海, 廣州, 深圳基本都差很少,  會計這種基礎崗位最多, 而後是會計主管,  值得特殊注意的是,  深圳還有全盤會計和成本會計

 

 

不一樣年限對於薪資的分佈狀況

 

 

 

經過以上圖表能夠看出, 應屆畢業生的薪資較低, 通常爲4.4k, 剛開始工做的1-3年的薪資爲6.3k,  3-5年的薪資爲8.4k,   5-10年的爲10k左右,  也有的薪資較高, 達到33k左右, 可是這個崗位經過左側的職位個數能夠看出, 只有一個相似崗位, 不具備表明性

 

 

不一樣規模的公司對於薪資的分佈狀況

 

 

經過圖表咱們能夠看出, 小公司通常開的薪資比較低, 例如15人左右的公司平均薪資在5k左右,  而大規模的公司, 例如大於150人以上的公司,  平均薪資在8k左右

 

不一樣的融資輪次對於薪資的影響

 

咱們能夠看出,  天使輪和未融資, 以及不須要融資能給的薪資爲6k~7k,  融資中C輪工資給能的薪資是最多的

 

 

  • 薪資最高的10個職位

 

 

咱們能夠看出, 晨光科技能給出差很少25k到42k的薪資,  能給出高薪的崗位基本上是會計經理, 會計主管, 主板會計, 高級會計

 

平均薪資最高的10個公司

 

 

 

咱們能夠看出, 能給出高薪的幾個公司爲  晨光科技, 孔夫子舊書網, 青雲, 熊貓直播, 藥幫忙, 上上籤

 

 

分析結論

從整體薪酬分佈狀況上,會計這一職業工資廣泛較高的,大多人是在4k-14k之間每個月,可是這個數據以後拉勾網的薪資, 可能智聯招聘或者51job數據更準確一些

從不一樣城市薪資分佈狀況得出,在北京工做的數據分析師工資中位數在8k左右,全國之首。其次是杭州上海深圳,若是要發展的話,仍是北、上、深、杭比較好啊。

從不一樣學歷薪資狀況得出,學歷越高發展所得到工資是越高,其中有大專和本科差距在2k左右

分析北上深杭的數據分析師職位需求數量,北京以135個得到最高。

 

思考總結

今天這篇文章進行了更新,主要是用爬蟲得到了會計職位信息,而後經過excel清洗數據, 而後經過excel的透視表分析數據,  經過excel的圖表實現數據可視化

 

下載資源

福利1:   若是想要拉勾網會計職位的數據, 請加我微信

福利2  python爬蟲源碼(github)

    https://github.com/quietjolt/lagou-spider

 

 

 

>>> 第二部分: 乾貨 - python爬蟲爬取拉勾網數據

 

數據採集

        這篇文章的數據來源是拉勾網,  獲取數據的過程是經過python實現爬蟲程序, 從而獲取了所需數據, 本文主要分析了拉勾網  '會計'  這個職位的整體薪資狀況, 不一樣城市薪資, 不一樣學歷, 重點城市的薪資分析,  數據量差很少在500條數據左右,  而根據接口中獲取的值, 能夠看出,  會計類崗位在拉勾網約在2720條左右, 數據覆蓋率爲 18%

  • 咱們須要的數據在拉勾網, 拉勾網的地址是https://www.lagou.com/

登陸拉勾網,在頂端輸入框內輸入"會計",點擊搜索, 點擊以後就能看到咱們須要的數據, 以下圖所示

 

 

 

 

其實這個爬蟲部分的代碼寫的比較簡單,運用知識主要是for循環,另外拉勾網對於咱們請求的響應結果是json格式,也簡化了咱們的操做。操做的過程確定會存在莫名的錯誤,你們要學會搜索並要有耐心啊。

 

爬蟲的代碼比較簡單,  主要用的的是python語言,  requests庫用於獲取數據, pyquery用戶解析html, pymysql用於保存數據.

 

爬蟲源碼請到github下載:

下載地址:  https://github.com/quietjolt/lagou-spider

 

這個步驟最後獲取的導出的是csv格式的數據, 這種格式的數據能夠在excel中導入, 而後去使用, 如圖所示(若是須要數據, 請直接聯繫做者)

 

 

數據的清洗與處理

 

剛纔獲取的數據, 主要的問題就是薪資的格式是相似  7k-15k這種形式的數據, 這種形式難以經過數學化的方式分析, 因此咱們須要作一下數據的清洗, 從7k-15k這種形式獲取最低薪資, 最高薪資, 還有平均薪資,  平均薪資的計算方式是   (最低薪資 + 最高薪資 ) /2

 

 

 

 

這裏處理薪資的作法是首先新加幾個字段,  第一個字段bottomSalary表示最低薪資,  topSalary表示最高信息,  avgSalary表示平均薪資

而後經過excel的函數計算對應的值

 

bottomSalary的計算公式是  =LEFT(L2,FIND("-",L2)-2)

topSalary的計算公式是  =MID(L2,FIND("-",L2)+1,LEN(L2)-FIND("-",L2)-1)

avgSalary的計算公式是  =(M2+N2)/2

 

爲了方便處理, 同時這是O列對應的數據的格式爲數字, 小數位爲0,   

通過處理後數據以下所示

 

 

轉載說明

轉載請註明出處

 

 

做者:

做者:  璀璨者張健, 專一於爬蟲, 數據分析, App/Web/小程序開發等領域

聯繫方式:  QQ: 598694550,  微信 quietjolt

 

此處能夠掃碼關注個人公衆號

相關文章
相關標籤/搜索