nutch 執行流程以及簡介

     Nutch體系流程圖:          第一步:generator差生抓取列表,在generator產生抓取列表的過程中,會生成crawl_generator文件夾。     第二步:fetcher 從網上抓取網頁,生成crawl_fetch以及content,content抓取下來的網頁的源代碼二進制的內容,crawl_fetch,每一個抓取URL的狀態。     第三步:對抓取得網
相關文章
相關標籤/搜索