scrapy日誌:dom
在 setting.py 文件中 設置 日誌 記錄等級scrapy
LOG_LEVEL= 'DEBUG' LOG_FILE ='log.txt'
觀察 scrapy 日誌ide
2017-01-01 11:11:13 [scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to 'blog.sina.com.cn': <GET http://blog.sina.com.cn/lm/sports/basketball/>
由於 Request中請求的 URL 和 allowed_domains 中定義的域名衝突,因此將Request中請求的URL過濾掉了,沒法請求url
name = 'sinaNBA' allowed_domains = ['sina.com'] start_urls=['http://sports.sina.com.cn/nba/']
在 Request 請求參數中,設置 dont_filter = True ,Request 中請求的 URL 將不經過 allowed_domains 過濾。日誌
yield Request(link_sel,callback=self.parse,dont_filter=True)