搜索引擎的爬蟲技術研究

一、爬蟲系統的誕生 通用搜索引擎的處理對象是互聯網網頁,目前互聯網網頁的數量已達百億,所以搜索引擎首先面臨的問題是:如何能夠設計出高效的下載系統,以將如此海量的網頁數據傳送到本地,在本地形成互聯網網頁的鏡像備份。 網絡爬蟲能夠起到這樣的作用,完成此項艱鉅的任務,它是搜索引擎系統中很關鍵也很基礎的構件。 本文主要介紹與網絡爬蟲相關的技術,儘管爬蟲經過幾十年的發展,從整體框架上來看已經相對成熟,但隨着
相關文章
相關標籤/搜索