基於java的分佈式爬蟲

分類 分佈式網絡爬蟲包含多個爬蟲,每個爬蟲需要完成的任務和單個的爬行器類似,它們從互聯網上下載網頁,並把網頁保存在本地的磁盤,從中抽取URL並沿 着這些URL的指向繼續爬行。由於並行爬行器需要分割下載任務,可能爬蟲會將自己抽取的URL發送給其他爬蟲。這些爬蟲可能分佈在同一個局域網之中,或者 分散在不同的地理位置。 根據爬蟲的分散程度不同,可以把分佈式爬行器分成以下兩大類: 1、基於局域網分佈式網絡
相關文章
相關標籤/搜索