scrapy安裝

又下決心學習scrapy了,開工了好幾回,終於不得不以挖坑立碑的方式來學了。html

官網:http://scrapy.org/python

文檔:http://scrapy-chs.readthedocs.org/zh_CN/latest/topics/commands.html  (中文)windows

          http://doc.scrapy.org/en/master/    (英文)scrapy

環境:PyCharm 5.0 + python 2.7.11 + scrapyide

1、安裝學習

       因爲使用了PyCharm省了很多事,但也要注意一些小問題,不然依然會報錯。spa

一、將pip和setuptools升級到最新版,因爲scrapy須要依賴好多庫,如lxml、twisted等。命令行

二、windows下須要安裝Microsoft Visual C++ 9.0。須要使用到vcvarsall.bat這個文件。code

    地址:https://www.microsoft.com/en-us/download/confirmation.aspx?id=44266xml

三、 若是遇到「‘xslt-config’ 不是內部或外部命令,也不是可運行的程序或批處理文件。 」這個問題,那麼下載對應的lxml文件,安裝便可。

    地址:https://pypi.python.org/simple/lxml/

四、若是遇到「ReadTimeoutError: HTTPSConnectionPool(host='pypi.python.org', port=443): Read timed out.」這個問題,就把防火牆關了,再裝。

    正常狀況下,應該就能完成安裝了。

2、使用

一、建立一個scrapy工程,在命令行下使用scrapy startproject tutorial 。注意scrapy的路徑,或者改寫環境變量。

該命令將會建立包含下列內容的 tutorial 目錄:

tutorial/
    scrapy.cfg
    tutorial/
        __init__.py
        items.py
        pipelines.py
        settings.py
        spiders/
            __init__.py
            ...

這些文件分別是:

  • scrapy.cfg: 項目的配置文件

  • tutorial/: 該項目的python模塊。以後您將在此加入代碼。

  • tutorial/items.py: 項目中的item文件.

  • tutorial/pipelines.py: 項目中的pipelines文件.

  • tutorial/settings.py: 項目的設置文件.

  • tutorial/spiders/: 放置spider代碼的目錄.

接下來就是學習如何編寫代碼了。

相關文章
相關標籤/搜索