Scrapy框架的使用之Scrapy通用爬蟲

時間 2021-07-14

原文原文鏈接

通過Scrapy，我們可以輕鬆地完成一個站點爬蟲的編寫。但如果抓取的站點量非常大，比如爬取各大媒體的新聞信息，多個Spider則可能包含很多重複代碼。如果我們將各個站點的Spider的公共部分保留下來，不同的部分提取出來作爲單獨的配置，如爬取規則、頁面解析方式等抽離出來做成一個配置文件，那麼我們在新增一個爬蟲的時候，只需要實現這些網站的爬取規則和提取規則即可。本節我們就來探究一下Scrapy通

>>阅读原文<<