GuozhongCrawler開發環境搭建

搭建GuozhongCrawler開發環境有兩種方式。java

一、構建源碼項目方式
git

1、首先下載源碼或者jar包github

源碼在github:https://github.com/CreditTone/GuozhongCrawler。若是網速或者不能訪問github能夠訪問開源中國的git地址:http://www.oschina.net/p/guozhongcrawler。ide

讀者能夠用git工具checkout下載。這裏咱們就直接選擇如下載方式了。工具

解壓Crawler-master.zip,若是在開源中國git下載的zip名字略有不一樣。ui

解壓後以下:.net

2、下載下來後咱們打開Eclipse。新建一個空的javaProject。選擇新建Java Project。項目名字這裏使用GuozhongCrawler。點擊finish。code

3、把src下的源碼和libs目錄拷貝到項目中。而且展開libs目錄全選全部jar右擊build Path--》Add  to  Build Path。
orm

完成後如圖:ip

4、再新建一個空java項目,這個做爲你的爬蟲項目。這裏取名爲GuozhongCrawlerImpl。

如圖:

5、右擊GuozhongCrawlerImpl選擇中Properties--》Java Build Path--》選中Projects選卡--》Add--》選中GuozhongCrawler--》點擊OK--》點擊OK。

如圖:

6、在GuozhongCrawlerImpl中新建一個類命名爲HelloGuozhong。生成main方法。而且貼入以下代碼。

CrawlTask crawlTask = new CrawlTask( "百度新聞任務" );
CrawlManager.prepareCrawlTask(crawlTask)
.withStartUrl( "http://news.baidu.com/" )
.addPageProccess( new PageProcessor() {
     
     @Override
     public void process(OkPage page, StartContext context,
             List<Proccessable> result) throws Exception {
         Document doc = Jsoup.parse(page.getContent());
         System.out.println(doc.select( "title" ).text());
     }
     
     @Override
     public void proccessErrorPage(Page page, StartContext context)
             throws Exception {
         
     }
     
     @Override
     public String getTag() {
         return null ;
     }
     
     @Override
     public Pattern getNormalContain() {
         return null ;
     }
     
     @Override
     public PageScript getJavaScript() {
         return null ;
     }
})
.start();

7、運行HelloGuozhong。出現以下提示說明運行成功。

13:01:40,856 com.guozhong.CrawlTask [ Thread-1 ] [ INFO ]:379 - 開始抓取
 13:01:41,631 com.guozhong.CrawlTask [ pool-1-thread-1 ] [ INFO ]:506 - 抓取:http://news.baidu.com/    Code:OK
 百度新聞搜索——全球最大的中文新聞平臺
13:01:41,860 com.guozhong.CrawlTask [ Thread-1 ] [ INFO ]:704 - 百度新聞任務任務完成銷燬任務

二、經過加入Jar庫方式搭建開發換

目前jar包只有在開源中國git庫中有提供。固然也能夠本身編譯源碼項目獲得。

開源中國git:地址.http://git.oschina.net/woshidaniu/GuozhongCrawler

下載後直接將GuozhongCrawler.jar加入項目的build Path中便可。

重複第6、七步驟出現以下信息說明搭建成功。

13:01:40,856 com.guozhong.CrawlTask [ Thread-1 ] [ INFO ]:379 - 開始抓取 13:01:41,631 com.guozhong.CrawlTask [ pool-1-thread-1 ] [ INFO ]:506 - 抓取:http://news.baidu.com/    Code:OK 百度新聞搜索——全球最大的中文新聞平臺13:01:41,860 com.guozhong.CrawlTask [ Thread-1 ] [ INFO ]:704 - 百度新聞任務任務完成銷燬任務

相關文章
相關標籤/搜索