爬蟲出現Forbidden by robots.txt

先說結論,關閉scrapy自帶的ROBOTSTXT_OBEY功能,在setting找到這個變量,設置爲False便可解決。 使用scrapy爬取淘寶頁面的時候,在提交http請求時出現debug信息Forbidden by robots.txt,看來是請求被拒絕了。開始由於是淘寶頁面有什麼保密機制,防止爬蟲來抓取頁面,因而在spider中填入各類header信息,假裝成瀏覽器,結果仍是不行。。。用
相關文章
相關標籤/搜索