關於scrapy中request過濾問題

時間 2021-01-12

標籤 scrapy 爬蟲 python 欄目 Python 简体版

原文原文鏈接

問題起因由於scrapy中有自帶的spidermiddlewares去過濾我們yield進來的request請求，很多時候會導致爬取數據缺失會直接一部分跳過。常見情景：可以發現，最常見的就是spidermiddlewares.offsite過濾，官方文檔也說明了：我收到了「Filtered offsite request」消息。如何修復？這些消息(以 DEBUG 所記錄)並不意味着有

>>阅读原文<<