今天在阿里雲上試用了一下,在這裏作一個簡單的說明。html
阿里雲的版本是2.7.5,因此用pyenv新安裝了一個3.6.4的環境,安裝後使用pyenv global 3.6.4便可使用3.6.4的環境,我我的比較喜歡這樣,切換自如,互不影響。git
以下圖:vim
接下來按照大才的文章,pip install gerapy便可,這一步沒有遇到什麼問題。有問題的同窗能夠向大才提issue。瀏覽器
首先去阿里雲的後臺設置安全組 ,個人是這樣:安全
而後到命令窗口對8000和6800端口放行便可。scrapy
接着執行ide
gerapy init測試
cd gerapy阿里雲
gerapy migrateurl
# 注意下一步
gerapy runserver 0.0.0.0:8000 【若是你是在本地,執行 gerapy runserver便可,若是你是在阿里雲上,你就要改爲前面這樣來執行】
如今在瀏覽器裏訪問:ip:8000應該就能夠看到主界面了
裏面的各個的含義見大才的文章。
在gerapy下的projects裏面新建一個scrapy爬蟲,在這裏我搞的是最簡單的:
scrapy startproject gerapy_test
cd gerapy_test
scrapy genspider baidu www.baidu.com
這樣就是一個最簡單的爬蟲了,修改一個settings.py中的ROBOTSTXT_OBEY=False, 而後修改一個spiders下面的baidu.py, 這裏隨意,我這裏設置的是輸出返回的 response.url
pip install scrapyd
安裝好之後,命令行執行
scrapyd
而後瀏覽器中打開 ip:6800,若是你沒有修改配置,應該這裏會打不開,clients那裏配置的時候,也應該會顯示爲error,就像這樣:
後來找了一下緣由發現scrapyd默認打開的也是127.0.0.1
因此這個時候就要改一下配置,具體能夠參考這裏, 我是這麼修改:
vim ~/.scrapyd.conf
[scrapyd]
bind_address = 0.0.0.0
在刷新一下,就會看到前面error變成了normal
這幾步大才的文章裏都有詳細說明,打包完,部署,在進入clients的調度界面,點擊run按鈕便可跑爬蟲了
能夠看到輸出的結果了。
建議你們能夠試着用一下,很方便,我這裏只是很簡單的使用了一下。