網絡爬蟲

網絡爬蟲作爲搜索引擎的基礎構件。 作用將海量的數據傳送到本地,形成鏡像備份。 先分析一下通用的爬蟲架構 百度圖片第二張就是 最主要還是去重式的下載 利用了隊列 可以將上述網頁劃分爲5部分 已下載網頁集合 已過期網頁集合 待下載網頁集合 可知網頁集合 不可知網頁集合 大體而言 爬蟲分3種類型 批量性爬蟲 有限定範圍(Batch Crawler) 增量性爬蟲 會持續抓取定期更新(Incremental
相關文章
相關標籤/搜索