通用爬蟲框架及heritrix爬蟲介紹

第1部分 通用爬蟲 1.1 通用爬蟲框架介紹   圖1-1描述了通用的爬蟲框架,其基本上包括了一個爬蟲系統所需要的所有模塊。任何一個爬蟲系統的設計圖,會發現都有一個環路,這個環代表着爬蟲大致的工作流程:根據url將對應的網頁下載下來,然後提取出網頁中包含的url,再根據這些新的URL下載對應的網頁,周而復始。爬蟲系統的子模塊都位於這個環路中,並完成某項特定的功能。     圖1- 1 通用爬蟲框架
相關文章
相關標籤/搜索