《信息檢索導論》第二十章總結

一、Web採集介紹 Web採集是從Web中採集大量網頁的過程,並且要避免採集重複或無用的頁面,採集完的網頁需要構建索引,以擴大搜索引擎的索引規模; web採集通常是由多臺機器並行採集; web採集的必須功能 (1)Web採集器需要識別採集器陷阱(spider traps),比如當採集器訪問到某個web服務器的網頁時,此網頁會生成無限多個網頁被採集器採集,從而使得采集器不能跳出; (2)web服務器
相關文章
相關標籤/搜索