常見網絡爬蟲的類型

1.通用網絡爬蟲(General Purpose Web Crawler)數據庫  爬取目標資源在全互聯網中,爬取目標數據巨大。對爬取性能要求很是高。應用於大型搜索引擎中,有很是高的應用價值。 通用網絡爬蟲的基本構成:初始URL集合,URL隊列,頁面爬行模塊,頁面分析模塊,頁面數據庫,連接過濾模塊等構成。 通用網絡爬蟲的爬行策略:主要有深度優先爬行策略和廣度優先爬行策略。 2.聚焦網絡爬蟲(Foc
相關文章
相關標籤/搜索