Detecting Near-Duplicates for Web Crawling

ABSTRACTweb 在網頁上有不少類似的文檔。好比說,兩篇文章只有在顯示廣告這一小部分是互不相同的。但這些不一樣的地方,對於網頁搜索來講,是可有可無的。所以,若是該網絡爬蟲技術能夠評估最新抓取的網頁與以前抓取的網頁是否類似,那麼它的「質量(相似..就是升級版!性能提高)」就會提高。算法 在開發一個在數百億網頁棧中檢測類似文章的系統過程當中,咱們作了兩項研究貢獻。第一個,咱們證實了Charika
相關文章
相關標籤/搜索