又下決心學習scrapy了,開工了好幾回,終於不得不以挖坑立碑的方式來學了。html
官網:http://scrapy.org/python
文檔:http://scrapy-chs.readthedocs.org/zh_CN/latest/topics/commands.html (中文)windows
http://doc.scrapy.org/en/master/ (英文)scrapy
環境:PyCharm 5.0 + python 2.7.11 + scrapyide
1、安裝學習
因爲使用了PyCharm省了很多事,但也要注意一些小問題,不然依然會報錯。spa
一、將pip和setuptools升級到最新版,因爲scrapy須要依賴好多庫,如lxml、twisted等。命令行
二、windows下須要安裝Microsoft Visual C++ 9.0。須要使用到vcvarsall.bat這個文件。code
地址:https://www.microsoft.com/en-us/download/confirmation.aspx?id=44266xml
三、 若是遇到「‘xslt-config’ 不是內部或外部命令,也不是可運行的程序或批處理文件。 」這個問題,那麼下載對應的lxml文件,安裝便可。
地址:https://pypi.python.org/simple/lxml/
四、若是遇到「ReadTimeoutError: HTTPSConnectionPool(host='pypi.python.org', port=443): Read timed out.」這個問題,就把防火牆關了,再裝。
正常狀況下,應該就能完成安裝了。
2、使用
一、建立一個scrapy工程,在命令行下使用scrapy startproject tutorial 。注意scrapy的路徑,或者改寫環境變量。
該命令將會建立包含下列內容的 tutorial
目錄:
tutorial/ scrapy.cfg tutorial/ __init__.py items.py pipelines.py settings.py spiders/ __init__.py ...
這些文件分別是:
scrapy.cfg
: 項目的配置文件
tutorial/
: 該項目的python模塊。以後您將在此加入代碼。
tutorial/items.py
: 項目中的item文件.
tutorial/pipelines.py
: 項目中的pipelines文件.
tutorial/settings.py
: 項目的設置文件.
tutorial/spiders/
: 放置spider代碼的目錄.
接下來就是學習如何編寫代碼了。