Scrapy 是 Python 中的一個容易擴展的爬蟲框架,使用它可以很是快速地從網站提取所需的數據。python
安裝 Scrapy 時,若是像安裝其它庫同樣直接運行命令 pip install scrapy,通常都會失敗,這是由於 Scrapy 依賴於其它幾個 Python 庫,要想一次性成功安裝 Scrapy,須要先安裝它們:lxml、Twisted、pywin3二、pyOpenSSL。windows
經過 PyCharm 安裝 Python 庫有 2 種方式,分別是:經過設置添加、經過終端添加。在接下來的介紹中,這兩種方式均會說起到。安全
一、lxml:一個解析庫,支持HTML和XML文檔的解析,支持XPath解析方式。網絡
打開 PyCharm 進入「設置」頁面,在左側菜單欄中找到 Project Interpreter ,能夠看到目前已有的 Python 包列表,點擊右側「+」進行其餘 Python 包的搜索和添加:app
在搜索欄中輸入 lxml ,找到並選中後點擊下方 Install Package 進行安裝:框架
當出現提示 Package ‘lxml’ install successfully 表示安裝 lxml 成功:scrapy
二、wheel:一種格式,wheel包後綴名爲whl,當經過 PyCharm 的設置頁面沒法成功安裝時,能夠嘗試自行下載 wheel 格式的包進行安裝。ide
在 PyCharm 界面左下方點擊 「 Terminal 」進入終端,以下圖所示,輸入命令:pip install wheel工具
經過命令行安裝時,要使用到 Python 自帶的 pip 工具(pip 是 Python 包管理工具,該工具提供了對 Python 包的查找、下載、安裝、卸載的功能)。網站
三、Twisted:爲 Python 提供的基於事件驅動的網絡引擎包。
直接使用 pip install twisted 命令安裝不成功,則能夠下載whl格式的包安裝。
進入 Twisted 下載連接:https://pypi.org/project/Twisted/#files
下載對應版本的 wheel 文件(我下載的是 win64,python3.6 版本):
下載完成後,進入 whl 文件所在的存儲路徑,因爲我將它保存在了個人 PythonProject 項目文件夾中,所以進入 PyCharm 的「 Terminal 」後,能夠直接輸入命令 pip install xxx.whl 進行安裝(xxx 是包的名字):
四、pywin32:爲 Python 提供訪問 Windows API 的擴展,提供了齊全的 windows 常量、接口、線程以及 COM 機制等。
在終端輸入命令:pip install pywin32
五、pyOpenSSL:Python 用於支持 SSL(Security Socket Layer)的包,SSL是爲網絡通訊提供安全及數據完整性的一種安全協議。
在終端輸入命令:pip install pyOpenSSL
以上,均安裝完畢後,就能夠開始 Scrapy 的安裝了。
在終端輸入命令:pip install scrapy
至此,Scrapy 順利安裝成功。
雖然上述只操做安裝了 5個 Python 包,但實際上……
再次打開 「設置」- 「Project Interpreter 」 ,能夠看到,和本文第一張圖示對比,實際上新增了 20+ 個 Python 包!
接下來,咱們就能夠愉快地開始使用 Scrapy 框架來進行爬蟲啦。
https://mp.weixin.qq.com/s/1DiM94Qac5teh9QbtqYLOw