WebCollector爬蟲的種子

時間 2021-01-13

原文原文鏈接

網絡爬蟲之所以能夠不斷找到新的網頁，是因爲它能夠從已經爬取的頁面中，提取出未爬取的超鏈接，但是當爬蟲開啓的時候，是沒有已知網頁的。所以我們需要告訴爬蟲至少1個url,讓爬蟲通過爬取這個url對應的網頁，來找到新的網頁（通過超鏈接抽取）。對於廣度遍歷來說，種子就是樹的樹根（森林的樹根集合）。例如下圖，對http://www.apache.org/進行爬取，http://www.apache.or

>>阅读原文<<