在開發調試狀況下,能夠直接採用main函數來啓動SeimiCrawler,可是爲了便於工程化部署與分發,SeimiCrawler提供了專門的打包插件maven-seimicrawler-plugin用來對SeimiCrawler工程進行打包,打好的包能夠直接在服務器上部署運行了。git
首先須要在pom文件中添加添加plugingithub
<plugin> <groupId>cn.wanghaomiao</groupId> <artifactId>maven-seimicrawler-plugin</artifactId> <version>1.1.0</version> <executions> <execution> <phase>package</phase> <goals> <goal>build</goal> </goals> </execution> </executions> <!--<configuration>--> <!-- 默認target目錄 --> <!--<outputDirectory>/some/path</outputDirectory>--> <!--</configuration>--> </plugin>
接下來,在須要打包的時候,執行mvn clean package
便可,打好包目錄結構以下:shell
. ├── bin #下文將有具體啓動參數說明介紹 │ ├── run.bat #windows下啓動腳本 │ └── run.sh #Linux下啓動腳本 └── seimi ├── classes #Crawler工程業務類及相關配置文件目錄 └── lib #工程依賴包目錄
以shell腳本爲例:windows
./bin/run.sh basic
加載全部掃描到的爬蟲規則類,並觸發名爲basic
的爬蟲規則開始抓取。服務器
./bin/run.sh 8000 basic
加載全部掃描到的爬蟲規則類,並觸發名爲basic
的爬蟲規則開始抓取,同時在8000
端口啓動一個http服務接受經過制定http接口(參考SeimiCrawler文檔)添加抓取請求,查詢抓取狀態等。maven
./bin/run.sh
加載全部掃描到的爬蟲規則類,並全都都處於監放任務狀態。就是startAllWorkers()
。函數
./bin/run.sh 8000
加載全部掃描到的爬蟲規則類,並全都都處於監放任務狀態。就是startAllWorkers()
。於此同時在8000
端口啓動一個http服務接受經過制定http接口(參考SeimiCrawler文檔)添加抓取請求,查詢抓取狀態等。ui