用Python寫爬蟲(1)

一、網絡爬蟲與搜索引擎的關係   爬蟲相當於眼睛和耳朵,是收集數據的。 引擎相當於大腦,是理解和處理數據的。   搜索引擎大致可分爲四個子系統:下載系統、分析系統、索引系統、查詢系統。而爬蟲只是下載系統    上圖是搜索引擎的一個簡單抽象模型。 從中可以看出爬蟲是搜索引擎的一部分,用於蒐集信息(下載網頁內容),蒐集來的信息形成網頁的備份,需要搜索引擎的其他部分經過一系列的分析整理後才能使用。 上圖
相關文章
相關標籤/搜索