芝麻HTTP:在阿里雲上測試Gerapy教程

今天在阿里雲上試用了一下,在這裏作一個簡單的說明。html

     一、配置環境

阿里雲的版本是2.7.5,因此用pyenv新安裝了一個3.6.4的環境,安裝後使用pyenv global 3.6.4便可使用3.6.4的環境,我我的比較喜歡這樣,切換自如,互不影響。git

以下圖:vim

接下來按照大才的文章,pip install gerapy便可,這一步沒有遇到什麼問題。有問題的同窗能夠向大才提issue。瀏覽器

   2. 開啓服務

首先去阿里雲的後臺設置安全組   ,個人是這樣:安全

而後到命令窗口對8000和6800端口放行便可。scrapy

接着執行ide

    gerapy init測試

cd gerapy阿里雲

gerapy migrateurl

    # 注意下一步 

    gerapy runserver  0.0.0.0:8000 【若是你是在本地,執行 gerapy runserver便可,若是你是在阿里雲上,你就要改爲前面這樣來執行】

如今在瀏覽器裏訪問:ip:8000應該就能夠看到主界面了

裏面的各個的含義見大才的文章。

3.建立項目

在gerapy下的projects裏面新建一個scrapy爬蟲,在這裏我搞的是最簡單的:

scrapy startproject gerapy_test

cd gerapy_test

scrapy genspider baidu www.baidu.com

這樣就是一個最簡單的爬蟲了,修改一個settings.py中的ROBOTSTXT_OBEY=False, 而後修改一個spiders下面的baidu.py, 這裏隨意,我這裏設置的是輸出返回的 response.url

4.安裝scrapyd

 pip install scrapyd

安裝好之後,命令行執行

scrapyd

而後瀏覽器中打開 ip:6800,若是你沒有修改配置,應該這裏會打不開,clients那裏配置的時候,也應該會顯示爲error,就像這樣:

 

後來找了一下緣由發現scrapyd默認打開的也是127.0.0.1

 

因此這個時候就要改一下配置,具體能夠參考這裏, 我是這麼修改:

vim ~/.scrapyd.conf

[scrapyd]
bind_address = 0.0.0.0

在刷新一下,就會看到前面error變成了normal

 

5. 打包,部署,調度

這幾步大才的文章裏都有詳細說明,打包完,部署,在進入clients的調度界面,點擊run按鈕便可跑爬蟲了

在阿里雲上測試Gerapy教程

 

能夠看到輸出的結果了。

6.結語

建議你們能夠試着用一下,很方便,我這裏只是很簡單的使用了一下。

相關文章
相關標籤/搜索