分佈式爬蟲的部署之Scrapyd對接Docker

時間 2019-11-17

原文原文鏈接

咱們使用了Scrapyd-Client成功將Scrapy項目部署到Scrapyd運行，前提是須要提早在服務器上安裝好Scrapyd並運行Scrapyd服務，而這個過程比較麻煩。若是同時將一個Scrapy項目部署到100臺服務器上，咱們須要手動配置每臺服務器的Python環境，更改Scrapyd配置嗎？若是這些服務器的Python環境是不一樣版本，同時還運行其餘的項目，而版本衝突又會形成沒必要要的麻煩。html

因此，咱們須要解決一個痛點，那就是Python環境配置問題和版本衝突解決問題。若是咱們將Scrapyd直接打包成一個Docker鏡像，那麼在服務器上只須要執行Docker命令就能夠啓動Scrapyd服務，這樣就不用再關心Python環境問題，也不須要擔憂版本衝突問題。python

接下來，咱們就將Scrapyd打包製做成一個Docker鏡像。mysql

1、準備工做

請確保本機已經正確安裝好了Docker。
web

2、對接Docker

新建一個項目，新建一個scrapyd.conf，即Scrapyd的配置文件，內容以下：
redis

[scrapyd]
eggs_dir    = eggs
logs_dir    = logs
items_dir   =
jobs_to_keep = 5
dbs_dir     = dbs
max_proc    = 0
max_proc_per_cpu = 10
finished_to_keep = 100
poll_interval = 5.0
bind_address = 0.0.0.0
http_port   = 6800
debug       = off
runner      = scrapyd.runner
application = scrapyd.app.application
launcher    = scrapyd.launcher.Launcher
webroot     = scrapyd.website.Root

[services]
schedule.json     = scrapyd.webservice.Schedule
cancel.json       = scrapyd.webservice.Cancel
addversion.json   = scrapyd.webservice.AddVersion
listprojects.json = scrapyd.webservice.ListProjects
listversions.json = scrapyd.webservice.ListVersions
listspiders.json  = scrapyd.webservice.ListSpiders
delproject.json   = scrapyd.webservice.DeleteProject
delversion.json   = scrapyd.webservice.DeleteVersion
listjobs.json     = scrapyd.webservice.ListJobs
daemonstatus.json = scrapyd.webservice.DaemonStatus複製代碼

這裏其實是修改自官方文檔的配置文件：https://scrapyd.readthedocs.io/en/stable/config.html#example-configuration-file，其中修改的地方有兩個。sql

max_proc_per_cpu=10，本來是4，即CPU單核最多運行4個Scrapy任務，也就是說1核的主機最多同時只能運行4個Scrapy任務，這裏設置上限爲10，也能夠自行設置。docker
bind_address = 0.0.0.0，本來是127.0.0.1，不能公開訪問，這裏修改成0.0.0.0便可解除此限制。django

新建一個requirements.txt，將一些Scrapy項目經常使用的庫都列進去，內容以下：json

requests
selenium
aiohttp
beautifulsoup4
pyquery
pymysql
redis
pymongo
flask
django
scrapy
scrapyd
scrapyd-client
scrapy-redis
scrapy-splash複製代碼

若是運行的Scrapy項目還須要用到其餘的庫，這些庫能夠自行添加到此文件中。flask

最後新建一個Dockerfile，內容以下：

FROM python:3.6
ADD . /code
WORKDIR /code
COPY ./scrapyd.conf /etc/scrapyd/
EXPOSE 6800
RUN pip3 install -r requirements.txt
CMD scrapyd複製代碼

第一行的FROM是指在python:3.6這個鏡像上構建，也就是說在構建時就已經有了Python 3.6的環境。

第二行的ADD是將本地的代碼放置到虛擬容器中。它有兩個參數：第一個參數是. ，即表明本地當前路徑；第二個參數/code表明虛擬容器中的路徑，也就是將本地項目全部內容放置到虛擬容器的/code目錄下。

第三行的WORKDIR是指定工做目錄，這裏將剛纔添加的代碼路徑設成工做路徑，這個路徑下的目錄結構和當前本地目錄結構是相同的，因此在這個目錄下能夠直接執行庫安裝命令。

第四行的COPY是將當前目錄下的scrapyd.conf文件複製到虛擬容器的/etc/scrapyd/目錄下，Scrapyd在運行的時候會默認讀取這個配置。

第五行的EXPOSE是聲明運行時容器提供服務端口，注意這裏只是一個聲明，運行時不必定會在此端口開啓服務。這個聲明的做用，一是告訴使用者這個鏡像服務的運行端口，以方便配置映射，二是在運行使用隨機端口映射時，容器會自動隨機映射EXPOSE的端口。

第六行的RUN是執行某些命令，通常作一些環境準備工做。因爲Docker虛擬容器內只有Python 3環境，而沒有Python庫，因此咱們運行此命令來在虛擬容器中安裝相應的Python庫，這樣項目部署到Scrapyd中即可以正常運行。

第七行的CMD是容器啓動命令，容器運行時，此命令會被執行。這裏咱們直接用scrapyd來啓動Scrapyd服務。

基本工做完成了，咱們運行以下命令進行構建：

docker build -t scrapyd:latest .複製代碼

構建成功後便可運行測試：

docker run -d -p 6800:6800 scrapyd複製代碼

打開：http://localhost:6800，便可觀察到Scrapyd服務，以下圖所示。

這樣，Scrapyd Docker鏡像構建完成併成功運行。

咱們能夠將此鏡像上傳到Docker Hub。例如，個人Docker Hub用戶名爲germey，新建一個名爲scrapyd的項目，首先能夠爲鏡像打一個標籤來標識一下：

docker tag scrapyd:latest germey/scrapyd:latest複製代碼

這裏請自行替換成你的項目名稱。

而後 Push 便可：

docker push germey/scrapyd:latest複製代碼

以後在其餘主機運行此命令便可啓動Scrapyd服務：

docker run -d -p 6800:6800 germey/scrapyd複製代碼

Scrapyd成功在其餘服務器上運行。

3、結語

咱們利用Docker解決了Python環境的問題。接下來，咱們再解決批量部署Docker的問題。

本資源首發於崔慶才的我的博客靜覓： Python3網絡爬蟲開發實戰教程 | 靜覓

如想了解更多爬蟲資訊，請關注個人我的微信公衆號：進擊的Coder

weixin.qq.com/r/5zsjOyvEZ… (二維碼自動識別)

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。