Heritrix 項目介紹和架構 Nutch比較(轉載 收藏)

Heritrix項目介紹  Heritrix工程始於2003年初,IA的目的是開發一個特殊的爬蟲,對網上的資源進行歸檔,建立網絡數字圖書館。在過去的6年裏,IA已經建立了400TB的數據。 IA期望他們的crawler包含以下幾種:  寬帶爬蟲:能夠以更高的帶寬去站點爬。  主題爬蟲:集中於被選擇的問題。  持續爬蟲:不僅僅爬更當前的網頁還負責爬日後更新的網頁。  實驗爬蟲:對爬蟲技術進行實驗,以
相關文章
相關標籤/搜索