網絡爬蟲的抓取策略

遍歷策略是爬蟲的核心問題,在爬蟲系統中,待抓取URL隊列是很重要的一部分。待抓取URL隊列中的URL以什麼樣的順序排列也是一個很重要的問題,因爲這涉及到先抓取那個頁面,後抓取哪個頁面而決定這些URL排列順序的方法,叫做抓取策略爬蟲策略主要有以下幾種: 一,深度優先遍歷策略: 深度優先遍歷測試是指網絡爬蟲會從起始頁開始,一個鏈接一個鏈接跟蹤下去,處理完這條線路的鏈接之後,在再轉入下一個起始頁,繼續跟
相關文章
相關標籤/搜索