搜索引擎的背後(粗糙入門)

搜索引擎架構 搜索引擎大概可分爲4步: 蒐集 預處理 索引 查詢 蒐集 利用爬蟲蒐集信息,初始可以從一些優質網頁,然後通過廣度優先遍歷,不斷提取出網頁內容和其中的鏈接,並將鏈接加入到待爬取隊列中,不斷迭代爬取更多的網頁; 問題一:這麼多的網頁,必然存在重複爬取的網頁,如何避免重複爬取? 答:利用布隆過濾器。假如有10億個url,每個URL平均長度爲64字節,則10億個至少需要 1 KB = 102
相關文章
相關標籤/搜索