開發一款開源爬蟲框架系列(一):分析nutch,scrapy的爬蟲設計

nutch的架構分析    injector首次會從url.txt中取出url而後將url分配給hadoop中的不一樣job進行url標準化和校驗,並構造<url, CrawlDatum>對象。generator會利用hadoop中不一樣的job進行url過濾、打分和計算hash值,而後將信息存入ParseSegment,fetcher會利用多線程下載網頁將內容存入content,將url返回給c
相關文章
相關標籤/搜索