Python爬蟲進階二之PySpider框架安裝配置

關於

首先,在此附上項目的地址,以及官方文檔html

PySpider 官方文檔python

安裝

1. pip

首先確保你已經安裝了pip,若沒有安裝,請參照git

pip安裝github

2. phantomjs

PhantomJS 是一個基於 WebKit 的服務器端 JavaScript API。它全面支持web而不需瀏覽器支持,其快速、原生支持各類Web標準:DOM 處理、CSS 選擇器、JSON、Canvas 和 SVG。 PhantomJS 能夠用於頁面自動化、網絡監測、網頁截屏以及無界面測試等。web

安裝瀏覽器

以上附有官方安裝方式,若是你是 Ubuntu 或 Mac OS X用戶,能夠直接用命令來安裝服務器

Ubuntu:網絡

 

 

Mac OS X:app

 

 

3. pyspider

直接利用 pip 安裝便可框架

 

 

若是你是 Ubuntu 用戶,請提早安裝好如下支持類庫

 

 

測試

若是安裝過程沒有提示任何錯誤,那就證實一些OK。

命令行輸入

 

 

而後瀏覽器訪問 http://localhost:5000

觀察一下效果,若是能夠正常出現 PySpider 的頁面,那證實一切OK

在此附圖一張,這是我寫了幾個爬蟲以後的界面。

2016-02-11 20.55.36

好,接下來我會進一步介紹這個框架的使用。

常見錯誤

我曾遇到過的一個錯誤:

PySpider HTTP 599: SSL certificate problem錯誤的解決方法 ,後來在做者那發了issue獲得了答案,其餘的暫時沒什麼問題。

不過發現有的小夥伴提了各類各樣的問題啊,不過我確實都沒遇到過,我再Win10,Linux Ubuntu,Linux CentOS,Mac OS X都成功運行。不過確實有些奇怪的問題,跑着跑着崩了,一點就崩了我也就比較納悶了。

若是你們有問題,能夠看看做者項目裏面有沒有相似的issue,另外也推薦你們直接到做者的GitHub上發issue。

畢竟,這個框架不是我寫的。

在此附上Issue地址:

PySpider Issue

轉載:靜覓 » Python爬蟲進階二之PySpider框架安裝配置

相關文章
相關標籤/搜索