scrapy-爬取鬥圖代碼
<一> 開局三連殺
1.建立run的文件
2.setings中配置scrapy中ROBOTSTXT_OBEY = True
解釋:==觀察代碼能夠發現,默認爲True,就是要遵照robots.txt 的規則,那麼 robots.txt 是個什麼東西呢?
通俗來講, robots.txt 是遵循 Robot協議 的一個文件,它保存在網站的服務器中,它的做用是,
告訴搜索引擎爬蟲,本網站哪些目錄下的網頁 不但願 你進行爬取收錄。在Scrapy啓動後,
會在第一時間訪問網站的 robots.txt 文件,而後決定該網站的爬取範圍。
固然,咱們並非在作搜索引擎
,並且在某些狀況下咱們想要獲取的內容偏偏是被 robots.txt 所禁止訪問的。因此,某些時候
,咱們就要將此配置項設置爲 False ,拒絕遵照 Robot協議 !
3.
<二>開始在APP內寫咱們的爬蟲程序
用的東西都 爬取到了 若是開始存庫能夠開始 第一步
第二步
將items 導入到APP 內 而且實例化對象 看上 操做
第三部 主要是將 爬取內容 存入文件夾
第四步
在settings中 查找pip 優先權限 釋放 以下圖