網絡爬蟲(1)

算法分析     我們現在從需求中提取關鍵詞來逐步分析問題。     首先是「種子節點」。它就是一個或多個在爬蟲程序運行前手動給出的URL(網址),爬蟲正是下載並解析這些種子URL指向的頁面,從中提取出新的URL,然後重複以上的工作,直到達到設定的條件才停止。     然後是「特定的策略」。這裏所說的策略就是以怎樣的順序去請求這些URL。如下圖是一個簡單的頁面指向示意圖(實際情況遠比這個複雜),頁
相關文章
相關標籤/搜索