搜索引擎

搜索引擎大致可以分爲四個部分:蒐集、分析、索引、查詢。 蒐集:利用爬蟲爬取網頁。 搜索引擎把整個互聯網看作數據結構中的有向圖,把每個頁面看作一個頂點。如果某個頁面中包含另外一個頁面,那我們就在這兩個頂點之間連一條有向邊。可以找一些權重比較高的網頁,按照廣度優先的策略,不停地從隊列中取出鏈接,然後爬取對應地網頁。 1.待爬取網頁鏈接文件:links.bin(支持斷電續爬) 可能內存中隊列的鏈接會越來
相關文章
相關標籤/搜索