Seimi基礎系列1-SeimiCrawler打包部署工具使用

簡介

在開發調試狀況下,能夠直接採用main函數來啓動SeimiCrawler,可是爲了便於工程化部署與分發,SeimiCrawler提供了專門的打包插件maven-seimicrawler-plugin用來對SeimiCrawler工程進行打包,打好的包能夠直接在服務器上部署運行了。git

如何作

首先須要在pom文件中添加添加plugingithub

<plugin>
    <groupId>cn.wanghaomiao</groupId>
    <artifactId>maven-seimicrawler-plugin</artifactId>
    <version>1.1.0</version>
    <executions>
        <execution>
            <phase>package</phase>
            <goals>
                <goal>build</goal>
            </goals>
        </execution>
    </executions>
    <!--<configuration>-->
        <!-- 默認target目錄 -->
        <!--<outputDirectory>/some/path</outputDirectory>-->
    <!--</configuration>-->
</plugin>

接下來,在須要打包的時候,執行mvn clean package便可,打好包目錄結構以下:shell

.
├── bin             #下文將有具體啓動參數說明介紹
│   ├── run.bat    #windows下啓動腳本
│   └── run.sh     #Linux下啓動腳本
└── seimi
    ├── classes     #Crawler工程業務類及相關配置文件目錄
    └── lib         #工程依賴包目錄

啓動腳本使用

以shell腳本爲例:windows

  • ./bin/run.sh basic 加載全部掃描到的爬蟲規則類,並觸發名爲basic的爬蟲規則開始抓取。服務器

  • ./bin/run.sh 8000 basic 加載全部掃描到的爬蟲規則類,並觸發名爲basic的爬蟲規則開始抓取,同時在8000端口啓動一個http服務接受經過制定http接口(參考SeimiCrawler文檔)添加抓取請求,查詢抓取狀態等。maven

  • ./bin/run.sh 加載全部掃描到的爬蟲規則類,並全都都處於監放任務狀態。就是startAllWorkers()函數

  • ./bin/run.sh 8000 加載全部掃描到的爬蟲規則類,並全都都處於監放任務狀態。就是startAllWorkers()。於此同時在8000端口啓動一個http服務接受經過制定http接口(參考SeimiCrawler文檔)添加抓取請求,查詢抓取狀態等。ui

體驗包下載

SeimiCrawler-demo-1.0.zip插件

相關文章
相關標籤/搜索