scrapy實現增量式爬取

時間 2020-01-18

標籤 scrapy 實現增量欄目 Python 简体版

原文原文鏈接

實現爬蟲的增量式爬取有兩種方法，一是在得到頁面解析的內容後判斷該內容是否已經被爬取過，二是在發送請求以前判斷要被請求的url是否已經被爬取過，前一種方法能夠感知每一個頁面的內容是否發生變化，能獲取頁面新增或者變化的內容，可是因爲要對每一個url發送請求，因此速度比較慢，而對網站服務器的壓力也比較大，後一種沒法得到頁面變化的內容，可是由於不用對已經爬取過的url發送請求，因此對服務器壓力比較小，速度

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。