搜索引擎----網絡爬蟲

時間 2020-12-25

原文原文鏈接

網絡爬蟲以叫網絡蜘蛛（Spider或Crawler），網絡機器人，是一個程序，會自動抓取互聯網上的網頁。這種技術一般可能會檢查你的站點上所有的鏈接。當然，更爲高級的技術是把網頁中的相關數據分類保存下來，成爲搜索引擎的數據源。基本架構圖：傳統爬蟲從一個或若干初始網頁的URL開始，獲得初始網頁上的URL，在抓取網頁的過程中，不斷從當前頁面上抽取新的URL放入隊列，直到滿足系統的一定停止條件。對於垂

>>阅读原文<<