【Scrapy】迭代爬取時，報錯 Filtered offsite request

時間 2019-11-13

標籤 Scrapy 迭代報錯 filtered offsite request 欄目 Python 简体版

原文原文鏈接

scrapy日誌：dom

在 setting.py 文件中設置日誌記錄等級scrapy

LOG_LEVEL= 'DEBUG'

LOG_FILE ='log.txt'

觀察 scrapy 日誌ide

2017-01-01 11:11:13 [scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to 'blog.sina.com.cn': <GET http://blog.sina.com.cn/lm/sports/basketball/>

由於 Request中請求的 URL 和 allowed_domains 中定義的域名衝突，因此將Request中請求的URL過濾掉了，沒法請求url

name = 'sinaNBA'
	allowed_domains = ['sina.com']
	start_urls=['http://sports.sina.com.cn/nba/']

在 Request 請求參數中，設置 dont_filter = True ,Request 中請求的 URL 將不經過 allowed_domains 過濾。日誌

yield Request(link_sel,callback=self.parse,dont_filter=True)

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。