前言:html
小李是個頗有上進心的女孩, 老闆讓她瞭解下會計這個行業的薪資狀況, 她不清楚怎麼去作, 因此找了筆者, 噹噹噹, 而後這一份薪資報告就出來了^_^.(小李爲虛擬人物)python
by 璀璨者張健, 專一於爬蟲和數據分析, App/Web/小程序, 區塊鏈等領域mysql
簡述:git
首先說明這篇文章的數據來源,是爬蟲爬取了拉勾網"數據分析師"這一職位信息所得來的。而且主要分析了數據分析師整體薪酬狀況、不一樣城市薪酬分佈、不一樣學歷薪酬分佈、北京上海工做等地經驗薪酬分佈狀況、薪資最高的20個職位, 平均薪資最高的10個公司。 前面的內容多的是數據處理, 想看結果的能夠直接跳到分析結論!github
閱讀大綱:sql
數據分析報告json
分析結論小程序
思考總結 微信
數據採集(附錄)python爬蟲
數據清洗與處理(附錄)
>>> 第一部分: 拉勾網會計職位分析報告
數據分析
整體薪酬狀況
從上面的圖中,大部分職位集中在4k~14k以前, 10k左右的職位最多, 高薪的職位相對較少, 薪資特別低的有1k,2k,3k這三個薪資級別, 這三個薪資級別應該是 實例 崗位
不一樣城市薪酬分佈狀況
北京市薪酬分佈中位數大約在8.8k,居全國首位。其次是杭州、烏魯木齊,上海, 深圳, 能夠看出對於會計職位來講, 薪資最高的是北上深杭和烏魯木齊, 北上廣杭是國內的大城市, 而烏魯木齊的薪資中位數在8k, 可能的緣由是這個城市治安很差, 職位多, 可是人少
不一樣學歷的薪酬分佈
咱們能夠看出, 學歷對於薪資的影響仍是很大的, 本科與大專的薪資差距在2k左右, 差很少在20%左右,會計專業對於學歷的要求比較低, 沒有哪家公司要求碩士學位或者博士學位
北京上海深圳杭州職位不一樣薪酬分佈狀況
若是你想去北京和上海這兩個城市發展的朋友們,用數據告訴你去哪一個城市應該怎麼發展
從圖中咱們可以得出,在北京會計的職位是較多的, 而後發展的方向是會計主管, 高級會計和會計經理, 薪資都在10k以上, 其中會計經理薪資達到了15k
杭州, 上海, 廣州, 深圳基本都差很少, 會計這種基礎崗位最多, 而後是會計主管, 值得特殊注意的是, 深圳還有全盤會計和成本會計
• 不一樣年限對於薪資的分佈狀況
經過以上圖表能夠看出, 應屆畢業生的薪資較低, 通常爲4.4k, 剛開始工做的1-3年的薪資爲6.3k, 3-5年的薪資爲8.4k, 5-10年的爲10k左右, 也有的薪資較高, 達到33k左右, 可是這個崗位經過左側的職位個數能夠看出, 只有一個相似崗位, 不具備表明性
• 不一樣規模的公司對於薪資的分佈狀況
經過圖表咱們能夠看出, 小公司通常開的薪資比較低, 例如15人左右的公司平均薪資在5k左右, 而大規模的公司, 例如大於150人以上的公司, 平均薪資在8k左右
• 不一樣的融資輪次對於薪資的影響
咱們能夠看出, 天使輪和未融資, 以及不須要融資能給的薪資爲6k~7k, 融資中C輪工資給能的薪資是最多的
薪資最高的10個職位
咱們能夠看出, 晨光科技能給出差很少25k到42k的薪資, 能給出高薪的崗位基本上是會計經理, 會計主管, 主板會計, 高級會計
• 平均薪資最高的10個公司
咱們能夠看出, 能給出高薪的幾個公司爲 晨光科技, 孔夫子舊書網, 青雲, 熊貓直播, 藥幫忙, 上上籤
分析結論
從整體薪酬分佈狀況上,會計這一職業工資廣泛較高的,大多人是在4k-14k之間每個月,可是這個數據以後拉勾網的薪資, 可能智聯招聘或者51job數據更準確一些
從不一樣城市薪資分佈狀況得出,在北京工做的數據分析師工資中位數在8k左右,全國之首。其次是杭州上海深圳,若是要發展的話,仍是北、上、深、杭比較好啊。
從不一樣學歷薪資狀況得出,學歷越高發展所得到工資是越高,其中有大專和本科差距在2k左右
分析北上深杭的數據分析師職位需求數量,北京以135個得到最高。
思考總結
今天這篇文章進行了更新,主要是用爬蟲得到了會計職位信息,而後經過excel清洗數據, 而後經過excel的透視表分析數據, 經過excel的圖表實現數據可視化
下載資源
福利1: 若是想要拉勾網會計職位的數據, 請加我微信
福利2: python爬蟲源碼(github)
https://github.com/quietjolt/lagou-spider
>>> 第二部分: 乾貨 - python爬蟲爬取拉勾網數據
數據採集
這篇文章的數據來源是拉勾網, 獲取數據的過程是經過python實現爬蟲程序, 從而獲取了所需數據, 本文主要分析了拉勾網 '會計' 這個職位的整體薪資狀況, 不一樣城市薪資, 不一樣學歷, 重點城市的薪資分析, 數據量差很少在500條數據左右, 而根據接口中獲取的值, 能夠看出, 會計類崗位在拉勾網約在2720條左右, 數據覆蓋率爲 18%
咱們須要的數據在拉勾網, 拉勾網的地址是https://www.lagou.com/
登陸拉勾網,在頂端輸入框內輸入"會計",點擊搜索, 點擊以後就能看到咱們須要的數據, 以下圖所示
其實這個爬蟲部分的代碼寫的比較簡單,運用知識主要是for循環,另外拉勾網對於咱們請求的響應結果是json格式,也簡化了咱們的操做。操做的過程確定會存在莫名的錯誤,你們要學會搜索並要有耐心啊。
爬蟲的代碼比較簡單, 主要用的的是python語言, requests庫用於獲取數據, pyquery用戶解析html, pymysql用於保存數據.
爬蟲源碼請到github下載:
下載地址: https://github.com/quietjolt/lagou-spider
這個步驟最後獲取的導出的是csv格式的數據, 這種格式的數據能夠在excel中導入, 而後去使用, 如圖所示(若是須要數據, 請直接聯繫做者)
數據的清洗與處理
剛纔獲取的數據, 主要的問題就是薪資的格式是相似 7k-15k這種形式的數據, 這種形式難以經過數學化的方式分析, 因此咱們須要作一下數據的清洗, 從7k-15k這種形式獲取最低薪資, 最高薪資, 還有平均薪資, 平均薪資的計算方式是 (最低薪資 + 最高薪資 ) /2
這裏處理薪資的作法是首先新加幾個字段, 第一個字段bottomSalary表示最低薪資, topSalary表示最高信息, avgSalary表示平均薪資
而後經過excel的函數計算對應的值
bottomSalary的計算公式是 =LEFT(L2,FIND("-",L2)-2)
topSalary的計算公式是 =MID(L2,FIND("-",L2)+1,LEN(L2)-FIND("-",L2)-1)
avgSalary的計算公式是 =(M2+N2)/2
爲了方便處理, 同時這是O列對應的數據的格式爲數字, 小數位爲0,
通過處理後數據以下所示
轉載說明
轉載請註明出處
做者:
做者: 璀璨者張健, 專一於爬蟲, 數據分析, App/Web/小程序開發等領域
聯繫方式: QQ: 598694550, 微信 quietjolt
此處能夠掃碼關注個人公衆號