網絡爬蟲基本原理(二)

四、更新策略     互聯網是實時變化的,具有很強的動態性。網頁更新策略主要是決定何時更新之前已經下載過的頁面。常見的更新策略又以下三種:     1.歷史參考策略     顧名思義,根據頁面以往的歷史更新數據,預測該頁面未來何時會發生變化。一般來說,是通過泊松過程進行建模進行預測。     2.用戶體驗策略     儘管搜索引擎針對於某個查詢條件能夠返回數量巨大的結果,但是用戶往往只關注前幾頁結
相關文章
相關標籤/搜索