用node.js寫了一個簡單的小爬蟲,用來爬取拉勾網上的招聘信息,共爬取了北京、上海、廣州、深圳、杭州、西安、成都7個城市的數據,分別之前端、PHP、java、c++、python、Android、ios做爲關鍵詞進行爬取,爬到的數據以json格式儲存到本地,爲了方便觀察,我將數據整理了一下供你們參考前端
上述數據爲3月13日22時爬取的數據,可大體反映各個城市對不一樣語言的需求量。java
控制併發進行爬取node
爬取到的數據文件python
json數據文件ios
請求拉鉤網的 「https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false&city=城市&kd=關鍵詞&pn=頁數」能夠返回一個json格式的數據,該數據包含所要請求職位的信息,省去了使用cheerio解析的麻煩,因此直接用superagent來進行請求上述地址,並將數據儲存在本地便可,其中參數city是爲城市,kd爲所要搜索的關鍵詞,pn爲要請求的頁數,當中使用到了async來控制異步流程,使得併發數不超過3,防止被封ip。c++
github:https://github.com/zsqosos/positionAnalysisgit
代碼請在github上查看,使用該程序須要安裝node環境,若是以爲還不錯的話煩請給個star,歡迎給出寶貴意見。github