搭建GuozhongCrawler開發環境有兩種方式。java
一、構建源碼項目方式
git
1、首先下載源碼或者jar包github
源碼在github:https://github.com/CreditTone/GuozhongCrawler。若是網速或者不能訪問github能夠訪問開源中國的git地址:http://www.oschina.net/p/guozhongcrawler。ide
讀者能夠用git工具checkout下載。這裏咱們就直接選擇如下載方式了。工具
解壓Crawler-master.zip,若是在開源中國git下載的zip名字略有不一樣。ui
解壓後以下:.net
2、下載下來後咱們打開Eclipse。新建一個空的javaProject。選擇新建Java Project。項目名字這裏使用GuozhongCrawler。點擊finish。code
3、把src下的源碼和libs目錄拷貝到項目中。而且展開libs目錄全選全部jar右擊build Path--》Add to Build Path。
orm
完成後如圖:ip
4、再新建一個空java項目,這個做爲你的爬蟲項目。這裏取名爲GuozhongCrawlerImpl。
如圖:
5、右擊GuozhongCrawlerImpl選擇中Properties--》Java Build Path--》選中Projects選卡--》Add--》選中GuozhongCrawler--》點擊OK--》點擊OK。
如圖:
6、在GuozhongCrawlerImpl中新建一個類命名爲HelloGuozhong。生成main方法。而且貼入以下代碼。
CrawlTask crawlTask =
new
CrawlTask(
"百度新聞任務"
);
CrawlManager.prepareCrawlTask(crawlTask)
.withStartUrl(
"http://news.baidu.com/"
)
.addPageProccess(
new
PageProcessor() {
@Override
public
void
process(OkPage page, StartContext context,
List<Proccessable> result)
throws
Exception {
Document doc = Jsoup.parse(page.getContent());
System.out.println(doc.select(
"title"
).text());
}
@Override
public
void
proccessErrorPage(Page page, StartContext context)
throws
Exception {
}
@Override
public
String getTag() {
return
null
;
}
@Override
public
Pattern getNormalContain() {
return
null
;
}
@Override
public
PageScript getJavaScript() {
return
null
;
}
})
.start();
7、運行HelloGuozhong。出現以下提示說明運行成功。
13:01:40,856 com.guozhong.CrawlTask [ Thread-1 ] [ INFO ]:379 - 開始抓取
13:01:41,631 com.guozhong.CrawlTask [ pool-1-thread-1 ] [ INFO ]:506 - 抓取:http://news.baidu.com/ Code:OK
百度新聞搜索——全球最大的中文新聞平臺
13:01:41,860 com.guozhong.CrawlTask [ Thread-1 ] [ INFO ]:704 - 百度新聞任務任務完成銷燬任務
二、經過加入Jar庫方式搭建開發換
目前jar包只有在開源中國git庫中有提供。固然也能夠本身編譯源碼項目獲得。
開源中國git:地址.http://git.oschina.net/woshidaniu/GuozhongCrawler
下載後直接將GuozhongCrawler.jar加入項目的build Path中便可。
重複第6、七步驟出現以下信息說明搭建成功。
13:01:40,856 com.guozhong.CrawlTask [ Thread-1 ] [ INFO ]:379 - 開始抓取 13:01:41,631 com.guozhong.CrawlTask [ pool-1-thread-1 ] [ INFO ]:506 - 抓取:http://news.baidu.com/ Code:OK 百度新聞搜索——全球最大的中文新聞平臺13:01:41,860 com.guozhong.CrawlTask [ Thread-1 ] [ INFO ]:704 - 百度新聞任務任務完成銷燬任務