1.4 網絡爬蟲採集策略

網絡爬蟲的採集策略一般分爲四種:深度優先策略、廣度優先策略、非完全PageRank策略和大站優先策略。 深度優先策略:深度優先遍歷策略是指網絡爬蟲從起始頁開始,一個鏈接一個鏈接跟蹤下去,處理完這條線路之後再轉入下一個起始頁,繼續跟蹤,直至結束,深度優先策略處理方式如下圖所示。 深度優先策略是一種在開發爬蟲早期使用較多的方法。它的目的是要達到被搜索網頁結構的葉結點(即那些不包含任何超鏈接的HTML文
相關文章
相關標籤/搜索