初級的爬蟲咱們利用urllib和urllib2庫以及正則表達式就能夠完成了,不過還有更增強大的工具,爬蟲框架Scrapy,這安裝過程也是煞費苦心哪,在此整理以下。html
個人系統是 Win7,首先,你要有Python,我用的是2.7.7版本,Python3相仿,只是一些源文件不一樣。python
官網文檔:http://doc.scrapy.org/en/latest/intro/install.html,最權威噠,下面是個人親身體驗過程。linux
1.安裝Pythongit
安裝過程我就很少說啦,個人電腦中已經安裝了 Python 2.7.7 版本啦,安裝完以後記得配置環境變量,好比個人安裝在D盤,D:\python2.7.7,就把如下兩個路徑添加到Path變量中github
1
|
D:\python2.7.7;D:\python2.7.7\Scripts
|
配置好了以後,在命令行中輸入 python –version,若是沒有提示錯誤,則安裝成功正則表達式
2.安裝pywin32shell
在windows下,必須安裝pywin32,安裝地址:http://sourceforge.net/projects/pywin32/bootstrap
下載對應版本的pywin32,直接雙擊安裝便可,安裝完畢以後驗證:windows
在python命令行下輸入api
import win32com
若是沒有提示錯誤,則證實安裝成功
3.安裝pip
pip是用來安裝其餘必要包的工具,首先下載 get-pip.py
下載好以後,選中該文件所在路徑,執行下面的命令
1
|
python get-pip.py
|
執行命令後便會安裝好pip,而且同時,它幫你安裝了setuptools
安裝完了以後在命令行中執行
1
|
pip --version
|
若是提示以下,說明就安裝成功了,若是提示不是內部或外部命令,那麼就檢查一下環境變量有沒有配置好吧,有兩個路徑。
4.安裝pyOPENSSL
在Windows下,是沒有預裝pyOPENSSL的,而在Linux下是已經安裝好的。
安裝地址:https://launchpad.net/pyopenssl
5.安裝 lxml
lxml的詳細介紹 點我 ,是一種使用 Python 編寫的庫,能夠迅速、靈活地處理 XML
直接執行以下命令
1
|
pip install lxml
|
就可完成安裝,若是提示 Microsoft Visual C++庫沒安裝,則 點我 下載支持的庫。
6.安裝Scrapy
最後就是激動人心的時刻啦,上面的鋪墊作好了,咱們終於能夠享受到勝利的果實啦!
執行以下命令
1
|
pip install Scrapy
|
pip 會另外下載其餘依賴的包,這些就不要咱們手動安裝啦,等待一會,大功告成!
7.驗證安裝
輸入 Scrapy
若是提示以下命令,就證實安裝成功啦,若是失敗了,請檢查上述步驟有何疏漏。
Linux 下安裝很是簡單,只須要執行幾條命令幾個
1.安裝Python
1
|
sudo apt-get install python2.7 python2.7-dev
|
2.安裝 pip
首先下載 get-pip.py
下載好以後,選中該文件所在路徑,執行下面的命令
1
|
sudo python get-pip.py
|
3.直接安裝 Scrapy
因爲 Linux下已經預裝了 lxml 和 OPENSSL
若是想驗證 lxml ,能夠分別輸入
1
|
sudo pip install lxml
|
出現下面的提示這證實已經安裝成功
1
|
Requirement already satisfied (use --upgrade to upgrade): lxml in /usr/lib/python2.7/dist-packages
|
若是想驗證 openssl,則直接輸入openssl 便可,若是跳轉到 OPENSSL 命令行,則安裝成功。
接下來直接安裝 Scrapy 便可
1
|
sudo pip install Scrapy
|
安裝完畢以後,輸入 scrapy
注意,這裏linux下不要輸入Scrapy,linux依然嚴格區分大小寫的,感謝kamen童鞋提醒。
若是出現以下提示,這證實安裝成功
1
2
3
4
5
6
7
8
9
10
11
12
13
14
|
Usage:
scrapy <command> [options] [args]
Available commands:
bench Run quick benchmark test
fetch Fetch a URL using the Scrapy downloader
runspider Run a self-contained spider (without creating a project)
settings Get settings values
shell Interactive scraping console
startproject Create new project
version Print Scrapy version
view Open URL in browser, as seen by Scrapy
[ more ] More commands available when run from project directory
|
截圖以下
若有問題,歡迎留言!祝各位小夥伴順利安裝!