scrapy-爬取鬥圖

時間 2019-12-08

標籤 scrapy 欄目 Python 简体版

原文原文鏈接

scrapy-爬取鬥圖代碼

<一> 開局三連殺

1.建立run的文件

2.setings中配置scrapy中ROBOTSTXT_OBEY = True

解釋:==觀察代碼能夠發現，默認爲True，就是要遵照robots.txt 的規則，那麼 robots.txt 是個什麼東西呢？

通俗來講， robots.txt 是遵循 Robot協議的一個文件，它保存在網站的服務器中，它的做用是，

告訴搜索引擎爬蟲，本網站哪些目錄下的網頁不但願你進行爬取收錄。在Scrapy啓動後，

會在第一時間訪問網站的 robots.txt 文件，而後決定該網站的爬取範圍。

固然，咱們並非在作搜索引擎

，並且在某些狀況下咱們想要獲取的內容偏偏是被 robots.txt 所禁止訪問的。因此，某些時候

，咱們就要將此配置項設置爲 False ，拒絕遵照 Robot協議！

<二>開始在APP內寫咱們的爬蟲程序

用的東西都爬取到了若是開始存庫能夠開始第一步

第二步

將items 導入到APP 內而且實例化對象看上操做

第三部主要是將爬取內容存入文件夾

第四步在settings中查找pip 優先權限釋放以下圖

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。