分佈式網絡爬蟲架構-技術選型

   分佈式爬蟲:Nutch,主要依賴Hadoop,存儲於Mysql,Hbase,Hdfs等。    單機爬蟲:Crawler4j、WebMagic、WebCollector    WebMagic ,若分佈式,須要集成插件webmagic-extension,經過redis來存儲URL。              webmagic的使用文檔:http://webmagic.io/docs/htm
相關文章
相關標籤/搜索