搜索引擎的爬蟲技術研究

時間 2020-12-20

原文原文鏈接

一、爬蟲系統的誕生通用搜索引擎的處理對象是互聯網網頁，目前互聯網網頁的數量已達百億，所以搜索引擎首先面臨的問題是：如何能夠設計出高效的下載系統，以將如此海量的網頁數據傳送到本地，在本地形成互聯網網頁的鏡像備份。網絡爬蟲能夠起到這樣的作用，完成此項艱鉅的任務，它是搜索引擎系統中很關鍵也很基礎的構件。本文主要介紹與網絡爬蟲相關的技術，儘管爬蟲經過幾十年的發展，從整體框架上來看已經相對成熟，但隨着

>>阅读原文<<