Java爬蟲框架WebMagic的使用總結

最近,項目作一個公司新聞網站,分爲PC&移動端(h5),數據來源是從HSZX與huanqiu2個網站爬取,主要使用 Java編寫的WebMagic做爲爬蟲框架,數據分爲批量抓取、增量抓取,批量抓當前全部歷史數據,增量須要每10分鐘定時抓取一次,因爲從2個網站抓取,而且頻道不少,數據量大,更新頻繁;開發過程當中遇到不少的坑,今天騰出時間,感受有必要作以總結。 工具說明: html          
相關文章
相關標籤/搜索