Heritrix學習筆記

   Heritrix 是一個由 java 開發的、開源的網絡爬蟲,用戶可以使用它來從網上抓取想要的資源。其最出色之處在於它良好的可擴展性,方便用戶實現自己的抓取邏輯。本文詳細介紹了 Heritrix 在 Eclipse 中的配置、運行,最後以抓取北京林業大學網站爲例,介紹如何對其進行擴展,實現只抓取特定網站的頁面。    本文由淺入深,詳細介紹了 Heritrix 在 Eclipse 中的配置、
相關文章
相關標籤/搜索