爲了便於開發者對使用SeimiCrawler框架開發的爬蟲工程的打包部署,現已推出maven-seimicrawler-plugin
,一個maven工程的自動化打包插件。下面簡要介紹下他的使用。git
pom添加添加plugingithub
<plugin> <groupId>cn.wanghaomiao</groupId> <artifactId>maven-seimicrawler-plugin</artifactId> <version>1.0.0</version> <executions> <execution> <phase>package</phase> <goals> <goal>build</goal> </goals> </execution> </executions> <!--<configuration>--> <!-- 默認target目錄 --> <!--<outputDirectory>/some/path</outputDirectory>--> <!--</configuration>--> </plugin>
執行mvn clean package
便可,包目錄結構以下:windows
. ├── bin # 相應的腳本中也有具體啓動參數說明介紹,在此再也不敖述 │ ├── run.bat # windows下啓動腳本 │ └── run.sh # Linux下啓動腳本 └── seimi ├── classes # Crawler工程業務類及相關配置文件目錄 └── lib # 工程依賴包目錄
SeimiCrawler是一個敏捷的,支持分佈式的Java爬蟲開發框架,但願能在最大程度上下降新手開發一個可用性高且性能不差的爬蟲系統的門檻,以及提高開發爬蟲系統的開發效率。在SeimiCrawler的世界裏,絕大多數人只需關心去寫抓取的業務邏輯就夠了,其他的Seimi幫你搞定。設計思想上SeimiCrawler受Python的爬蟲框架Scrapy啓發很大,同時融合了Java語言自己特色與Spring的特性,並但願在國內更方便且廣泛的使用更有效率的XPath解析HTML,因此SeimiCrawler默認的HTML解析器是JsoupXpath(獨立擴展項目,非jsoup自帶),默認解析提取HTML數據工做均使用XPath來完成(固然,數據處理亦能夠自行選擇其餘解析器)。框架
直達SeimiCrawler項目maven
你們有什麼問題或建議如今均可以選擇經過下面的郵件列表討論,首次發言前需先訂閱並等待審覈經過(主要用來屏蔽廣告宣傳等)分佈式
seimicrawler+subscribe@googlegroups.com
seimicrawler@googlegroups.com
seimicrawler+unsubscribe@googlegroups.com