WebCollector爬蟲的種子

網絡爬蟲之所以能夠不斷找到新的網頁,是因爲它能夠從已經爬取的頁面中,提取出未爬取的超鏈接,但是當爬蟲開啓的時候,是沒有已知網頁的。所以我們需要告訴爬蟲至少1個url,讓爬蟲通過爬取這個url對應的網頁,來找到新的網頁(通過超鏈接抽取)。 對於廣度遍歷來說,種子就是樹的樹根(森林的樹根集合)。 例如下圖,對http://www.apache.org/進行爬取,http://www.apache.or
相關文章
相關標籤/搜索