Scrapy爬取智聯招聘

時間 2019-11-16

標籤 scrapy 招聘欄目 Python 简体版

原文原文鏈接

以前接了一個活，作的功能是從智聯招聘爬取招聘信息
賺了幾百塊零花錢
實現了一個GUI，如圖：

雖然比較醜low，可是簡潔明瞭，落落大方（已是我水平的天花板了）
具體功能說明就不了，你們都能看懂的。。。。
智聯招聘連接

網頁是這個樣子的，反爬蟲不強。
還實現了一個功能，就是定時發送郵件
如圖：

具體功能說明就不了，你們都能看懂的。。。。
接下來就要開源代碼了，原本想上傳文件，可是發現思否不支持（好像其餘博客也不行。。。。。）
因此準備發到github上了。
Github連接呢
python

順便說一下思路：
網頁參數jl是控制地區的git

#下拉列表(地區)
area={
    '全國': 489,
    '北京': 530,
    '上海': 538,
    '深圳': 765,
    '廣州': 763,
    '天津': 531,
    '成都': 801,
    '杭州': 653,
    '武漢': 736,
    '大連': 600,
    '南京': 635,
    '蘇州': 639,
    '西安': 854,
}

kw參數就是搜索關鍵詞
https://sou.zhaopin.com/?jl=6...

def start_requests(self):發送請求
def parse(self, response):解析列表，發送子請求（爲了獲取詳情）
def re_parse(self, response):解析具體內容github

最後，網頁時動態渲染的，因此在middleware加了一個selenium，畢竟scrapy自己不支持動態渲染。但這也破壞了scrapy的異步結構，因此，速度不是很理想，但夠用。異步

詳情的話，具體看代碼吧。乏了。scrapy

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。