PageProcessor是全部PageRequest請求完成後處理的接口。 例如:startContext.createPageRequest("http://my.oschina.net/u/1377701/blog/425984",OschinaProcessor.class)便可指定處理頁面結果 此時重寫OschinaProcessor.process方法便可完成解析工做java
PageScript getJavaScript()
若是這個頁面須要動態交互JS,定義一個PageScript返回spa
返回:.net
java.util.regex.Pattern getNormalContain()
當啓動代理Ip訪問時須要重寫此方法,返回正常網頁應該帶有的字符串標識。好比www.baidu.com帶有「百度」代理
返回:code
void process(OkPage page, StartContext context, java.util.List<BasicRequest> queue, java.util.List<Proccessable> objectContainer) throws java.lang.Exception
處理一個頁面orm
參數:對象
page
- 下載完成的網頁blog
context
- 當前全部入口的上下文對象接口
queue
- 加入跟進Request的List容器,處理完成後queue的全部Request會被推送到抓取隊列中隊列
拋出:
java.lang.Exception
void processErrorPage(Page page, StartContext context) throws java.lang.Exception
處理錯誤頁面
參數:
page
-
context
-
拋出:
java.lang.Exception