不管出於興趣或者職業發展,因而最近開始作各類大小項目實踐,以拉勾網數據分析招聘職位分析廣州求職競爭狀況!python
Tools : chrome; python 3.6;jupyter git
OS : mac osxgithub
Reference:wangwei-tongxue GITer;百度chrome
在拉勾網搜索頁面輸入數據分析,而且定位爲廣州,用F12打開開發調試工具,根據下圖標紅的地方查看詳細信息:json
在general裏面很容易看出是post請求,而且返回的是json數據,很方便讀取,以下圖cookie
經過觀察分析,發現post請求時候由表單信息控制查詢關鍵字和頁碼,echarts
同時,報頭信息最好包括header,cookie,data等信息,用的requests庫對獲取的json數據解析,爬蟲函數以下:函數
因爲拉勾網反扒機制的限制,設置10s的抓取間隔,效率較低,時間間隔能夠本身看狀況設定。工具
查看抓取的數據狀況:post
簡單的數據清洗,而後能夠用df.to_csv保存或直接分析
能夠導入pyecharts庫,進行可視化,注意文件能夠保存在當前工做目錄(os.getcwd能夠查看當前路徑),由圖能夠看出數據工做幾乎集中在天河區!
(以拉勾網爲例)應屆生大部分薪資在5000+,而工做3年以上的工資接近兩萬!工做經驗基本與工資成正比,學無止境,加油!