scrapy實現增量式爬取

實現爬蟲的增量式爬取有兩種方法,一是在得到頁面解析的內容後判斷該內容是否已經被爬取過,二是在發送請求以前判斷要被請求的url是否已經被爬取過,前一種方法能夠感知每一個頁面的內容是否發生變化,能獲取頁面新增或者變化的內容,可是因爲要對每一個url發送請求,因此速度比較慢,而對網站服務器的壓力也比較大,後一種沒法得到頁面變化的內容,可是由於不用對已經爬取過的url發送請求,因此對服務器壓力比較小,速度
相關文章
相關標籤/搜索