python3爬蟲_環境安裝

時間 2019-11-21

原文原文鏈接

1、環境安裝

一、python3安裝

官網：https://www.python.org/downloads/html

64 位系統能夠下載 Windows x86-64 executable installer，32 位系統能夠下載 Windows x86 executable installer，下載完成以後，直接雙擊運行 Python 安裝包，使用圖形界面安裝，設置好 Python 的安裝路徑，完成後將 Python3和 Python3 的 Scripts 目錄配置到環境變量便可。python

點擊環境變量，找到系統變量下的 Path 變量，隨後點擊編輯按鈕mysql

驗證是否安裝成功git

二、請求庫安裝

爬蟲能夠簡單分爲幾步：抓取頁面、分析頁面、存儲數據。github

Requests的安裝

命令：pip install requestsweb

Selenium的安裝

命令：pip install seleniumredis

ChromeDriver安裝

查看chrome版本號，到chromeDriver官網下載對應驅動，將 chromedriver.exe 文件拖到 Python 的 Scripts 目錄下sql

下載地址https://sites.google.com/a/chromium.org/chromedriver/downloads。mongodb

PhantomJS的安裝

Chrome 或 Firefox 進行網頁抓取的話，每次抓取的時候，都會彈出一個瀏覽器，比較影響使用。因此在這裏再介紹一個無界面瀏覽器，叫作 PhantomJS。chrome

PhantomJS 是一個無界面的，可腳本編程的 WebKit 瀏覽器引擎。它原生支持多種 web 標準：DOM 操做，CSS 選擇器，JSON，Canvas 以及 SVG。

官方網站：http://phantomjs.org

官方文檔：http://phantomjs.org/quick-start.html

下載地址：http://phantomjs.org/download.html

API接口說明：http://phantomjs.org/api/command-line.html

將下載的文件解壓以後打開會看到一個 bin 文件夾，裏面會包括一個可執行文件 phantomjs.exe，咱們須要將它直接放在配置好環境變量的路徑下或者將它所在的路徑配置到環境變量裏，如咱們能夠將它直接複製到 Python 的 Scripts 文件夾。

配置驗證：打開cmd命令行，輸入phantomjs

驗證安裝：

from selenium import webdriver

browser = webdriver.PhantomJS()

browser.get('https://www.baidu.com')

print(browser.current_url)

運行，內容以下：

Aiohttp的安裝

Requests 庫是一個阻塞式 HTTP 請求庫，當咱們發出一個請求後，程序會一直等待服務器的響應，直到獲得響應後程序纔會進行下一步的處理，其實這個過程是比較耗費資源的。若是程序能夠在這個等待過程當中作一些其餘的事情，如進行請求的調度、響應的處理等等，那麼爬取效率必定會大大提升。

Aiohttp 就是這樣一個提供異步 Web 服務的庫，從 Python3.5 版本開始，Python 中加入了 async/await 關鍵字，使得回調的寫法更加直觀和人性化，Aiohttp的異步操做藉助於 async/await 關鍵字寫法變得更加簡潔，架構更加清晰。

官方文檔：http://aiohttp.readthedocs.io/en/stable

GitHub：https://github.com/aio-libs/aiohttp

PyPi：https://pypi.python.org/pypi/aiohttp

命令：pip3 install aiohttp

官方推薦的其餘兩個庫：

命令：pip3 install cchardet 字符編碼檢測庫

命令：pip3 install aiodns 加速 DNS 解析庫

三、解析庫

抓取下網頁代碼以後，下一步就是從網頁中提取信息，提取信息的方式有多種多樣，可使用正則來提取，可是寫起來會相對比較繁瑣。在這裏還有許多強大的解析庫，如 LXML、BeautifulSoup、PyQuery 等等，提供了很是強大的解析方法，如 XPath 解析、CSS 選擇器解析等等，利用它們咱們能夠高效便捷地從從網頁中提取出有效信息。

LXML的安裝

LXML 是 Python 的一個解析庫，支持 HTML 和 XML 的解析，支持 XPath 解析方式，並且解析效率很是高。

命令：pip install lxml

BeautifulSoup的安裝

BeautifulSoup 是 Python 的一個 HTML 或 XML 的解析庫，咱們能夠用它來方便地從網頁中提取數據，它擁有強大的 API 和多樣的解析方式。

注意：在這裏咱們雖然安裝的是 beautifulsoup4 這個包，可是在引入的時候是引入的 bs4，這是由於這個包源代碼自己的庫文件夾名稱就是 bs4，因此安裝完成以後，這個庫文件夾就被移入到咱們本機 Python3 的 lib 庫裏，因此識別到的庫文件名稱就叫作 bs4，因此咱們引入的時候就引入 bs4 這個包。

所以，包自己的名稱和咱們使用時導入的包的名稱並不必定是一致的

命令：pip install beautifulsoup4

PyQuery的安裝

PyQuery 一樣是一個強大的網頁解析工具，它提供了和 jQuery 相似的語法來解析 HTML 文檔，支持 CSS 選擇器，使用很是方便。

命令：pip install pyquery

Tesserocr的安裝

爬蟲過程當中不免會遇到各類各樣的驗證碼，而大多數驗證碼仍是圖形驗證碼，這時候咱們能夠直接用 OCR 來識別。

Tesserocr 是 Python 的一個 OCR 識別庫，但實際上是對 Tesseract 作的一層 Python API 封裝，因此它的核心是 Tesseract，因此在安裝 Tesserocr 以前咱們須要先安裝 Tesseract。

首先須要下載 Tesseract，它爲 Tesserocr 提供了支持，下載連接爲：http://digi.bib.uni-mannheim.de/tesseract/

點擊進入以後能夠看到有各類 exe 的下載列表，在這裏能夠選擇下載 3.0 版本，如圖 1-24 所示爲 3.05 版本。其中文件名中帶有 dev 的爲開發版本，不帶 dev 的爲穩定版本，能夠選擇下載不帶 dev 的最新版本，例如能夠選擇下載 tesseract-ocr-setup-3.05.01.exe。下載完成以後雙擊安裝便可。在安裝過程當中能夠勾選上 Additional language data 選項，安裝 OCR 識別支持的語言包，這樣 OCR 即可以識別多國語言，接下來再安裝 Tesserocr 便可，直接使用 Pip 安裝：

命令：pip install tesserocr pillow

四、數據庫安裝

MySQL的安裝

MySQL 是一個輕量級的關係型數據庫，以表的形式來存儲數據，本節咱們來了解下它的安裝方式。

下載地址：https://www.mysql.com/cn/downloads

MongoDB安裝

MongoDB 是由 C++ 語言編寫的非關係型數據庫，是一個基於分佈式文件存儲的開源數據庫系統，其內容存儲形式相似 Json 對象，它的字段值能夠包含其餘文檔，數組及文檔數組，很是靈活。

連接爲：https://www.mongodb.com/download-center#community

Redis的安裝

Redis 是一個基於內存的高效的非關係型數據庫。

下載連接：https://github.com/MSOpenTech/redis/releases。

五、存儲庫安裝

和 Python 交互的話也一樣須要安裝一些 Python 存儲庫，如 MySQL 須要安裝 PyMySQL，MongoDB 須要安裝 PyMongo 等等

PyMySQL的安裝

命令：pip install pymysql

PyMongo的安裝

命令：pip install pymongo

RedisPy的安裝

命令：pip install redis

RedisDump的安裝

RedisDump 是一個用於 Redis 數據導入導出的工具，是基於 Ruby 實現的，因此要安裝 RedisDump 須要先安裝Ruby。

有關 Ruby 的安裝方式能夠參考：

http://www.ruby-lang.org/zh_cn/documentation/installation

安裝完成以後，咱們就能夠執行 gem 命令了，它相似於 Python 中的 pip 命令：gem install redis-dump

六、web庫安裝

Flask的安裝

命令：pip install flask

Tornado的安裝

Tornado 是一個支持異步的Web框架，經過使用非阻塞 I/O 流，它能夠支撐成千上萬的開放鏈接，效率很是高。

命令：pip install tornado

七、爬蟲框架安裝

PySpider的安裝

PySpider 是國人 binux 編寫的強大的網絡爬蟲框架，它帶有強大的 WebUI、腳本編輯器、任務監控器、項目管理器以及結果處理器，同時它支持多種數據庫後端、多種消息隊列，另外它還支持 JavaScript 渲染頁面的爬取，使用起來很是方便。

命令：pip install pyspider

Scrapy的安裝

Scrapy 是一個十分強大的爬蟲框架，依賴的庫比較多，至少須要依賴庫有 Twisted 14.0，lxml 3.4，pyOpenSSL 0.14。而在不一樣平臺環境又各不相同，因此在安裝以前最好確保把一些基本庫安裝好。

官方網站：https://scrapy.org

官方文檔：https://docs.scrapy.org

PyPi：https://pypi.python.org/pypi/Scrapy

GitHub：https://github.com/scrapy/scrapy

中文文檔：http://scrapy-chs.readthedocs.io

安裝LXML

安裝pyOpenSSL

pip install pyOpenSSL

安裝Twisted

到 http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 下載 Wheel 文件，利用 Pip 安裝便可。如 Python 3.6 版本，Windows 64 位系統，當前最新版本爲 Twisted17.5.0cp36cp36mwin_amd64.whl，直接下載便可。

而後 Pip 安裝便可：

pip3 install Twisted‑17.5.0‑cp36‑cp36m‑win_amd64.whl

安裝Scrapy

pip3 install Scrapy