芝麻HTTP：在阿里雲上測試Gerapy教程

時間 2019-11-17

標籤芝麻 http 阿里測試 gerapy 教程欄目 HTTP/TCP 简体版

原文原文鏈接

今天在阿里雲上試用了一下，在這裏作一個簡單的說明。html

一、配置環境

阿里雲的版本是2.7.5，因此用pyenv新安裝了一個3.6.4的環境，安裝後使用pyenv global 3.6.4便可使用3.6.4的環境，我我的比較喜歡這樣，切換自如，互不影響。git

以下圖：vim

接下來按照大才的文章，pip install gerapy便可，這一步沒有遇到什麼問題。有問題的同窗能夠向大才提issue。瀏覽器

2. 開啓服務

首先去阿里雲的後臺設置安全組，個人是這樣：安全

而後到命令窗口對8000和6800端口放行便可。scrapy

接着執行ide

gerapy init測試

cd gerapy阿里雲

gerapy migrateurl

# 注意下一步

gerapy runserver 0.0.0.0:8000 【若是你是在本地，執行 gerapy runserver便可，若是你是在阿里雲上，你就要改爲前面這樣來執行】

如今在瀏覽器裏訪問：ip:8000應該就能夠看到主界面了

裏面的各個的含義見大才的文章。

3.建立項目

在gerapy下的projects裏面新建一個scrapy爬蟲，在這裏我搞的是最簡單的：

scrapy startproject gerapy_test

cd gerapy_test

scrapy genspider baidu www.baidu.com

這樣就是一個最簡單的爬蟲了，修改一個settings.py中的ROBOTSTXT_OBEY=False, 而後修改一個spiders下面的baidu.py, 這裏隨意，我這裏設置的是輸出返回的 response.url

4.安裝scrapyd

pip install scrapyd

安裝好之後，命令行執行

scrapyd

而後瀏覽器中打開 ip:6800，若是你沒有修改配置，應該這裏會打不開，clients那裏配置的時候，也應該會顯示爲error，就像這樣：

後來找了一下緣由發現scrapyd默認打開的也是127.0.0.1

因此這個時候就要改一下配置，具體能夠參考這裏，我是這麼修改：

vim ~/.scrapyd.conf

[scrapyd]
bind_address = 0.0.0.0

在刷新一下，就會看到前面error變成了normal

5. 打包，部署，調度

這幾步大才的文章裏都有詳細說明，打包完，部署，在進入clients的調度界面，點擊run按鈕便可跑爬蟲了

能夠看到輸出的結果了。

6.結語

建議你們能夠試着用一下，很方便，我這裏只是很簡單的使用了一下。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。