爬蟲 | 準備庫的安裝

1.請求庫的安裝html

1.1 requests請求庫   python

pip install requests

1.2 selenium的安裝git

selenium是一種自動化測試工具,能夠用來驅動預覽器執行任務。github

pip install selenium

  selenium須要和預覽器進行配合,我下載的是無頭預覽器,phantomjsweb

  下載地址:http://phantomjs.org/download.htmlredis

  安裝成功後將bin目錄放在環境變量下數據庫

  兩種測試方式 1.在cmd窗口輸入 phantomjs 進入命令證實配置成功異步

         2. async

from selenium import webdriver
html = webdriver.PhantomJS(executable_path=r'D:\phantomjs\bin\phantomjs.exe')
html.get('https://www.baidu.com/')
print(html.current_url)

1.3 aiohttp 提供異步Web服務的庫工具

   aiohttp的異步操做藉助於 async/await關鍵字寫法變得更加簡潔

   下載方式:pip install aitohttp

   官方一樣推薦兩個庫:1.字符編碼檢測庫cchardet和加速DNS解析庫aiodns 命令用pip下載就行

   利用這幾個庫來維護代理池,利用異步方式檢測大量代理的運行情況,會極大的提升效率

2.解析庫的安裝

2.1 lxml的安裝

      lxml支持HTML和XML的解析,支持XPath解析方式,解析效率高

  直接pip install lxml就行

2.2 Beautifulsoup

  pip install beautifulsoup4

  驗證:

    

2.3 pyquery 是一個強大的網頁解析工具,提升了和jQuery相似的語句來解析HTML文檔,支持CSS選擇器

      pip install pyquery

2.4 tesserocr 的安裝

  大多數驗證碼能夠用OCR來識別,OCR就是Optical Character Recognition,光學字符識別,tesserocr是python的一個ORC識別庫,他的核心是tesseract,所以在安裝tesserocr以前,咱們須要安裝tesseract。

tesseract下載:https://digi.bib.uni-mannheim.de/tesseract/

 

帶vev的爲開發版本,不帶的爲穩定版本,安裝完成後再安裝tesserocr就行,用pip install tesserocr pillow

 Redis 數據庫下載 

https://github.com/MicrosoftArchive/redis/releases

可視化工具的安裝

http://www.javashuo.com/article/p-xqptwstf-ke.html

相關文章
相關標籤/搜索