1.請求庫的安裝html
1.1 requests請求庫 python
pip install requests
1.2 selenium的安裝git
selenium是一種自動化測試工具,能夠用來驅動預覽器執行任務。github
pip install selenium
selenium須要和預覽器進行配合,我下載的是無頭預覽器,phantomjsweb
下載地址:http://phantomjs.org/download.htmlredis
安裝成功後將bin目錄放在環境變量下數據庫
兩種測試方式 1.在cmd窗口輸入 phantomjs 進入命令證實配置成功異步
2. async
from selenium import webdriver html = webdriver.PhantomJS(executable_path=r'D:\phantomjs\bin\phantomjs.exe') html.get('https://www.baidu.com/') print(html.current_url)
1.3 aiohttp 提供異步Web服務的庫工具
aiohttp的異步操做藉助於 async/await關鍵字寫法變得更加簡潔
下載方式:pip install aitohttp
官方一樣推薦兩個庫:1.字符編碼檢測庫cchardet和加速DNS解析庫aiodns 命令用pip下載就行
利用這幾個庫來維護代理池,利用異步方式檢測大量代理的運行情況,會極大的提升效率
2.解析庫的安裝
2.1 lxml的安裝
lxml支持HTML和XML的解析,支持XPath解析方式,解析效率高
直接pip install lxml就行
2.2 Beautifulsoup
pip install beautifulsoup4
驗證:
2.3 pyquery 是一個強大的網頁解析工具,提升了和jQuery相似的語句來解析HTML文檔,支持CSS選擇器
pip install pyquery
2.4 tesserocr 的安裝
大多數驗證碼能夠用OCR來識別,OCR就是Optical Character Recognition,光學字符識別,tesserocr是python的一個ORC識別庫,他的核心是tesseract,所以在安裝tesserocr以前,咱們須要安裝tesseract。
tesseract下載:https://digi.bib.uni-mannheim.de/tesseract/
帶vev的爲開發版本,不帶的爲穩定版本,安裝完成後再安裝tesserocr就行,用pip install tesserocr pillow
Redis 數據庫下載
https://github.com/MicrosoftArchive/redis/releases
可視化工具的安裝