Python爬蟲實戰入門一:工具準備

1、基礎知識

使用Python編寫爬蟲,固然至少得了解Python基本的語法,瞭解:html

  • 基本數據結構
  • 數據類型
  • 控制流
  • 函數的使用
  • 模塊的使用

不須要過多過深的Python知識,僅此而已。
我的推薦《Python簡明教程》、Python官方的《Python教程》python

 

2、開發環境、

  • 操做系統Windows 7
  • Python版本:Python 3.4
  • 代碼編輯運行環境:我的推薦PyCharm社區版,固然,Python自帶的IDLE也行,Notepad++亦可,只要本身使用得習慣。

若是你在學習Python的過程當中碰見了不少疑問和難題,能夠加-q-u-n   227 -435-450裏面有軟件視頻資料免費windows

3、第三方依賴庫

  • requests:一個方便、簡潔、高效且人性化的HTTP請求庫
  • BeautifulSoup:HTML解析庫
  • pymongo:MongoDB的Python封裝模塊
  • selenium:一個Web自動化測試框架,用於模擬登陸和獲取JS動態數據
  • pytesseract:一個OCR識別模塊,用於驗證碼識別
  • Pillow:Python圖像處理模塊

 

4、第三方庫安裝:

上面列出的第三方模塊大多能夠經過pip install ××的方式直接安裝,部分模塊安裝方式不同,下面一一演示:
requests
pip install requests數據結構

 

BeautifulSoup
pip install bs4框架

pymongo
pip install pymongo函數

selenium
pip install selenium學習

Pillow
一、打開http://www.lfd.uci.edu/~gohlke/pythonlibs/
二、搜索找到「pillow」
三、根據本身系統的版本選擇對應的下載包測試

四、安裝
pip install Pillow‑4.0.0‑cp34‑cp34m‑win32.whlspa

pytesseract
一、pip install pytesseract操作系統

 

二、安裝tesseract
下載並安裝:

這樣,咱們的準備工做就基本完成,若是有另外的需求,在實戰中再進行安裝,接下來就能夠實戰Python爬蟲實戰了。

相關文章
相關標籤/搜索