pyspider是國人binux編寫的強大的網絡爬蟲框架,它帶有強大的WebUI、腳本編輯器、任務監控器、項目管理器以及結果處理器,同時支持多種數據庫後端、多種消息隊列,另外還支持JavaScript渲染頁面的爬取,使用起來很是方便,本節介紹一下它的安裝過程。html
pyspider是支持JavaScript渲染的,而這個過程是依賴於PhantomJS的,因此還須要安裝PhantomJS(具體的安裝過程詳見1.2.5節)。python
這裏推薦使用pip安裝,命令以下:git
pip3 install pyspider
命令執行完畢便可完成安裝。github
Windows下可能會出現這樣的錯誤提示:數據庫
Command "python setup.py egg_info" failed with error code 1 in /tmp/pip-build-vXo1W3/pycurl
這是PyCurl安裝錯誤,此時須要安裝PyCurl庫。從http://www.lfd.uci.edu/~gohlke/pythonlibs/#pycurl找到對應的Python版本,而後下載相應的wheel文件便可。好比Windows 64位、Python 3.6,則須要下載pycurl‑7.43.0‑cp36‑cp36m‑win_amd64.whl,隨後用pip安裝便可,命令以下:後端
pip3 install pycurl‑7.43.0‑cp36‑cp36m‑win_amd64.whl
若是在Linux下遇到PyCurl的錯誤,能夠參考本文:https://imlonghao.com/19.html。瀏覽器
安裝完成以後,能夠直接在命令行下啓動pyspider:網絡
pyspider all
此時控制檯會有相似如圖1所示的輸出。框架
圖1curl
這時pyspider的Web服務就會在本地5000端口運行。直接在瀏覽器中打開http://localhost:5000/,便可進入pyspider的WebUI管理頁面,如圖2所示,這證實pyspider已經安裝成功了。
圖2
後面,咱們會詳細介紹pyspider的用法。