Webmagic源碼分析之運行流程

Webmagic是Java中的一個爬蟲開源框架,主要有四大核心組件,分別是:Downloader、PageProcessor、Scheduler、Pipeline,並有Spider進行管理。這四個組件分別對應了爬蟲生命週期中的下載、處理、管理、持久化。同時還支持XPath、Jsoup、CSS選擇器,方便咱們對抓取的頁面進行解析。html     Webmagic的源碼能夠從github上pull下
相關文章
相關標籤/搜索