Python爬蟲:經常使用的爬蟲工具彙總

按照網絡爬蟲的的思路:javascript

 
 
頁面下載
頁面解析
數據存儲

將工具按照以上分類說明,按照學習路線順序給出參考文章css

1、頁面下載器

  1. requests(必學)html

    1. python爬蟲入門requests模塊
    2. Python爬蟲:requests庫基本使用
    3. Python爬蟲:使用requests庫下載大文件
    4. Python爬蟲:requests多進程爬取貓眼電影榜單
    5. requests InsecureRequestWarning: Unverified HTTPS request is being made.
  2. scrapyhtml5

    1. Python網絡爬蟲之scrapy框架
    2. scrapy學習
    3. Python爬蟲:關於scrapy模塊的請求頭
    4. Python爬蟲:scrapy框架請求參數meta、headers、cookies一探究竟
    5. Python爬蟲:scrapy輔助功能實用函數
  3. selenium+chrome + PhantomJS(抓取動態網頁,不推薦)java

    1. mac下安裝selenium+phantomjs+chromedriver
    2. Python爬蟲:selenium模塊基本使用
    3. Python爬蟲selenium模塊
    4. Python爬蟲:selenium和Chrome無頭瀏覽器抓取烯牛數據動態網頁
    5. Python爬蟲:利用selenium爬取淘寶商品信息
    6. Python爬蟲:selenium使用chrome和PhantomJS實用參數
  4. Splash(抓取動態網頁,推薦)python

    1. Python爬蟲:splash的安裝與簡單示例
    2. Python爬蟲:splash+requests簡單示例
    3. Python爬蟲:scrapy利用splash爬取動態網頁

總結:
對於下載器而言,python自帶的urllib就不要花時間去學了,學了就忘,直接requests能知足大部分測試+抓取需求,進階工程化scrapy,動態網頁優先找API接口,若是有簡單加密就破解,實在困難就使用splash渲染mysql

2、頁面解析器

  1. BeautifulSoup(入門級)git

    1. Python爬蟲入門BeautifulSoup模塊
  2. pyquery (相似jQuery)github

    1. Python爬蟲:pyquery模塊解析網頁
  3. lxmlsql

    1. Python爬蟲:使用lxml解析網頁內容
  4. parsel

    1. Extract text using CSS or XPath selectors
  5. scrapy的Selector (強烈推薦, 比較高級的封裝,基於parsel)

    1. 選擇器(Selectors)
    2. python爬蟲:scrapy框架xpath和css選擇器語法

總結:
其實解析器學習一個就夠了,其餘都不用學,不少培訓會教你從上到下的學習,我不是很推薦,直接學習scrapy的Selector 就行,簡單、直接、高效

3、數據存儲

  1. txt文本
    1. Python全棧之路:文件file經常使用操做
  2. csv文件
    1. python讀取寫入csv文件
  3. sqlite3 (python自帶)
    1. Python編程:使用數據庫sqlite3
  4. MySQL
    1. SQL:pymysql模塊讀寫mysql數據
  5. MongoDB
    1. Python編程:mongodb的基本增刪改查操做

總結:
數據存儲沒有什麼可深究的,按照業務需求來就行,通常快速測試使用MongoDB,業務使用MySQL

4、其餘工具

  1. execjs :執行js
    Python爬蟲:execjs在python中運行javascript代碼

  2. pyv8: 執行js
    mac安裝pyv8模塊-JavaScript翻譯成python

  3. html5lib
    1. Python爬蟲:scrapy利用html5lib解析不規範的html文本

5、關於xpath練習

本人的一個開源項目:PageParser
https://github.com/mouday/PageParser用於解析網頁,最終實現6行代碼寫爬蟲,能夠貢獻代碼,順便練習網頁解析的能力

相關文章
相關標籤/搜索