下一篇文章: Python3網絡爬蟲實戰---二、請求庫安裝:GeckoDriver、PhantomJS、Aiohttp
爬蟲能夠簡單分爲幾步:抓取頁面、分析頁面、存儲數據。html
在第一步抓取頁面的過程當中,咱們就須要模擬瀏覽器向服務器發出請求,因此須要用到一些 Python 庫來實現 HTTP 請求操做,在本書中咱們用到的第三方庫有 Requests、Selenium、Aiotttp 等。python
在本節咱們介紹一下這些請求庫的安裝方法。git
因爲 Requests 屬於第三方庫,也就是 Python 默認不會自帶這個庫,須要咱們手動去安裝,下面咱們首先看一下它的安裝過程。github
pip3 install requests
爲了驗證庫是否已經安裝成功,能夠在命令行下測試一下:web
$ python3 >>> import requests
在命令行首先輸入 python3,進入命令行模式,而後輸入如上內容,若是什麼錯誤提示也沒有,那麼就證實咱們已經成功安裝了 Requests。chrome
Selenium 是一個自動化測試工具,利用它咱們能夠驅動瀏覽器執行特定的動做,如點擊、下拉等等操做,對於一些 JavaScript 渲染的頁面來講,此種抓取方式很是有效,下面咱們來看下 Selenium 的安裝過程。segmentfault
pip3 install selenium
進入 Python 命令行交互模式,導入一下 Selenium 包,若是沒有報錯,則證實安裝成功。api
$ python3 >>> import selenium
但這樣還不夠,咱們還須要瀏覽器如 Chrome、Firefox 等瀏覽器來配合 Selenium 工做。瀏覽器
下面咱們會介紹 Chrome、Firefox、PhantomJS 三種瀏覽器的配置方式,有了瀏覽器咱們才能夠配合 Selenium 進行頁面的抓取。服務器
在上節咱們成功安裝好了 Selenium 庫,可是它是一個自動化測試工具,須要瀏覽器來配合它使用,那麼本節咱們就介紹一下 Chrome 瀏覽器及 ChromeDriver 驅動的配置。
首先須要下載一個 Chrome 瀏覽器,方法多樣,在此再也不贅述。
隨後咱們須要安裝一個 ChromeDriver 才能驅動 Chrome 瀏覽器完成相應的操做,下面咱們來介紹下怎樣安裝 ChromeDriver。
brew install chromedriver
若是安裝失敗,使用下面方法
brew cask install chromedriver
配置完成以後,就能夠在命令行下直接執行 chromedriver 命令了。
命令行下輸入:
chromedriver
輸入控制檯有相似輸出,如圖 1-17 所示:
圖 1-17 控制檯輸出
若是有相似輸出則證實 ChromeDriver 的環境變量配置好了。
隨後再在程序中測試,執行以下 Python 代碼:
from selenium import webdriver browser = webdriver.Chrome()
運行以後會彈出一個空白的 Chrome 瀏覽器,證實全部的配置都沒有問題,若是沒有彈出,請檢查以前的每一步的配置。
若是彈出以後閃退,則多是 ChromeDriver 版本和 Chrome 版本不簡容,請更換 ChromeDriver 版本。
若是沒有問題,接下來咱們就能夠利用 Chrome 來作網頁抓取了。
既然 Chrome 能夠經過 Selenium 驅動,Firefox 也能夠,若是想要實現 Selenium 驅動 Firefox 瀏覽器能夠參考下面的 GeckoDriver 的安裝。