以前接了一個活,作的功能是從智聯招聘爬取招聘信息
賺了幾百塊零花錢
實現了一個GUI,如圖:
雖然比較醜low,可是簡潔明瞭,落落大方(已是我水平的天花板了)
具體功能說明就不了,你們都能看懂的。。。。
智聯招聘連接
網頁是這個樣子的,反爬蟲不強。
還實現了一個功能,就是定時發送郵件
如圖:
具體功能說明就不了,你們都能看懂的。。。。
接下來就要開源代碼了,原本想上傳文件,可是發現思否不支持(好像其餘博客也不行。。。。。)
因此準備發到github上了。
Github連接呢
python
順便說一下思路:
網頁參數jl是控制地區的git
#下拉列表(地區) area={ '全國': 489, '北京': 530, '上海': 538, '深圳': 765, '廣州': 763, '天津': 531, '成都': 801, '杭州': 653, '武漢': 736, '大連': 600, '南京': 635, '蘇州': 639, '西安': 854, }
kw參數就是搜索關鍵詞
https://sou.zhaopin.com/?jl=6...
def start_requests(self):發送請求
def parse(self, response):解析列表,發送子請求(爲了獲取詳情)
def re_parse(self, response):解析具體內容github
最後,網頁時動態渲染的,因此在middleware加了一個selenium,畢竟scrapy自己不支持動態渲染。但這也破壞了scrapy的異步結構,因此,速度不是很理想,但夠用。異步
詳情的話,具體看代碼吧。乏了。scrapy