什麼是Python爬蟲?Python爬蟲經常使用框架有哪些?

  你們都知道python是一門多崗位編程語言,學習python以後能夠從事的崗位有不少,python爬蟲便在其中,不過不少人對python不是很瞭解,因此也不知道python爬蟲是什麼,接下來小編爲你們介紹一下。python

  Python是一門很是適合開發網絡爬蟲的編程語言,相比於其餘靜態編程語言,Python抓取網頁文檔的接口更簡潔;相比於其餘動態腳本語言,Python的urllib2包提供了較爲完整的訪問網頁文檔的API。此外,python中有優秀的第三方包能夠高效實現網頁抓取,並可用極短的代碼完成網頁的標籤過濾功能。編程

  Python爬蟲架構組成:markdown

  1. URL管理器:管理待爬取的url集合和已爬取的url集合,傳送待爬取的url給網頁下載器;網絡

  2. 網頁下載器:爬取url對應的網頁,存儲成字符串,傳送給網頁解析器;架構

  3. 網頁解析器:解析出有價值的數據,存儲下來,同時補充url到URL管理器。python爬蟲

  Python爬蟲工做原理:框架

  Python爬蟲經過URL管理器,判斷是否有待爬URL,若是有待爬URL,經過調度器進行傳遞給下載器,下載URL內容,並經過調度器傳送給解析器,解析URL內容,並將價值數據和新URL列表經過調度器傳遞給應用程序,並輸出價值信息的過程。scrapy

  Python爬蟲經常使用框架有:編程語言

  grab:網絡爬蟲框架;分佈式

  scrapy:網絡爬蟲框架,不支持Python3;

  pyspider:一個強大的爬蟲系統;

  cola:一個分佈式爬蟲框架;

  portia:基於Scrapy的可視化爬蟲;

  restkit:Python的HTTP資源工具包。它能夠讓你輕鬆地訪問HTTP資源,並圍繞它創建的對象。

  demiurge:基於PyQuery的爬蟲微框架。

相關文章
相關標籤/搜索