複雜的爬蟲設計

時間 2021-01-19

原文原文鏈接

當我們要爬取的數據相對比較簡單, 數據屬於拿來即用型，實際上我們要爬取的數據大部分是非結構化數據(html 網頁等),需要對這些數據做進一步地處理（爬蟲中的數據清洗階段）,而且每個我們爬取的數據中也很有可能包含着大量待爬取網頁的 url,也就是說需要有 url 隊列管理，另外請求有時候還需求登錄，每個請求也需要添加 Cookie，也就涉及到 Cookie 的管理，在這種情況下考慮 Scrapy 這

>>阅读原文<<