搜索引擎----網絡爬蟲

網絡爬蟲以叫網絡蜘蛛(Spider或Crawler),網絡機器人,是一個程序,會自動抓取互聯網上的網頁。這種技術一般可能會檢查你的站點上所有的鏈接。當然,更爲高級的技術是把網頁中的相關數據分類保存下來,成爲搜索引擎的數據源。 基本架構圖: 傳統爬蟲從一個或若干初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的一定停止條件。對於垂
相關文章
相關標籤/搜索