GuozhongCrawler系列教程 (3) PageProcessor詳解

       PageProcessor是全部PageRequest請求完成後處理的接口。 例如:startContext.createPageRequest("http://my.oschina.net/u/1377701/blog/425984",OschinaProcessor.class)便可指定處理頁面結果 此時重寫OschinaProcessor.process方法便可完成解析工做java


方法詳細資料

  • getJavaScript

    PageScript getJavaScript()

    若是這個頁面須要動態交互JS,定義一個PageScript返回spa

    • 返回:.net


  • getNormalContain

    java.util.regex.Pattern getNormalContain()

    當啓動代理Ip訪問時須要重寫此方法,返回正常網頁應該帶有的字符串標識。好比www.baidu.com帶有「百度」代理

    • 返回:code


  • process

    void process(OkPage page,           StartContext context,
               java.util.List<BasicRequest> queue,
               java.util.List<Proccessable> objectContainer)
                 throws java.lang.Exception

    處理一個頁面orm

    • 參數:對象

    • page - 下載完成的網頁blog

    • context - 當前全部入口的上下文對象接口

    • queue - 加入跟進Request的List容器,處理完成後queue的全部Request會被推送到抓取隊列中隊列

    • 拋出:

    • java.lang.Exception

  • processErrorPage

    void processErrorPage(Page page,                    StartContext context)
                          throws java.lang.Exception

    處理錯誤頁面

    • 參數:

    • page -

    • context -

    • 拋出:

    • java.lang.Exception

相關文章
相關標籤/搜索