數據分析與挖掘案列--拉勾網數據分析崗位分析

 

不管出於興趣或者職業發展,因而最近開始作各類大小項目實踐,以拉勾網數據分析招聘職位分析廣州求職競爭狀況!python

 Tools      : chrome;  python 3.6;jupyter git

 OS          :   mac osxgithub

Reference:wangwei-tongxue GITer;百度chrome

一:contents

 1. 爬取數據         

  1. 網頁分析

  2. 爬蟲程序    

 2. 職位分析   

  1. 哪些公司的招聘需求最多呢?

  2. 什麼樣的學歷可以勝任數據分析呢?

  3. 幾年工做經驗更受市場歡迎呢?

  4. 廣州哪一個區的數據分析崗位機會最多?

  5. 不一樣工做年限的數據分析師是什麼收入水平

二.1.網頁分析:

在拉勾網搜索頁面輸入數據分析,而且定位爲廣州,用F12打開開發調試工具,根據下圖標紅的地方查看詳細信息:json

在general裏面很容易看出是post請求,而且返回的是json數據,很方便讀取,以下圖cookie

經過觀察分析,發現post請求時候由表單信息控制查詢關鍵字和頁碼,echarts

同時,報頭信息最好包括header,cookie,data等信息,用的requests庫對獲取的json數據解析,爬蟲函數以下:函數

因爲拉勾網反扒機制的限制,設置10s的抓取間隔,效率較低,時間間隔能夠本身看狀況設定。工具

查看抓取的數據狀況:post

簡單的數據清洗,而後能夠用df.to_csv保存或直接分析

 

 2. 職位分析   

  1. 哪些公司的招聘需求最多呢?

 

2.學歷要求

 

3.對工做經驗的要求怎麼樣?

4.哪一個區的數據分析崗位機會最多?

能夠導入pyecharts庫,進行可視化,注意文件能夠保存在當前工做目錄(os.getcwd能夠查看當前路徑),由圖能夠看出數據工做幾乎集中在天河區!

5.工做年限與數據分析工做的相關性

(以拉勾網爲例)應屆生大部分薪資在5000+,而工做3年以上的工資接近兩萬!工做經驗基本與工資成正比,學無止境,加油!

 

完整代碼和運行結果請於個人github下載!

https://github.com/nashgame/DataScience/tree/master/notebook 

相關文章
相關標籤/搜索