複雜的爬蟲設計

當我們要爬取的數據相對比較簡單, 數據屬於拿來即用型,實際上我們要爬取的數據大部分是非結構化數據(html 網頁等),需要對這些數據做進一步地處理(爬蟲中的數據清洗階段),而且每個我們爬取的數據中也很有可能包含着大量待爬取網頁的 url,也就是說需要有 url 隊列管理,另外請求有時候還需求登錄,每個請求也需要添加 Cookie,也就涉及到 Cookie 的管理,在這種情況下考慮 Scrapy 這
相關文章
相關標籤/搜索