網絡爬蟲淺析

時間 2021-01-20

原文原文鏈接

Heritrix項目介紹 Heritrix工程始於2003年初，IA的目的是開發一個特殊的爬蟲，對網上的資源進行歸檔，建立網絡數字圖書館。在過去的6年裏，IA已經建立了400TB的數據。 IA期望他們的crawler包含以下幾種：寬帶爬蟲：能夠以更高的帶寬去站點爬。主題爬蟲：集中於被選擇的問題。持續爬蟲：不僅僅爬更當前的網頁還負責爬日後更新的網頁。實驗爬蟲：對爬蟲技術進行實驗，以決定該爬什

>>阅读原文<<