你們都知道python是一門多崗位編程語言,學習python以後能夠從事的崗位有不少,python爬蟲便在其中,不過不少人對python不是很瞭解,因此也不知道python爬蟲是什麼,接下來小編爲你們介紹一下。python
Python是一門很是適合開發網絡爬蟲的編程語言,相比於其餘靜態編程語言,Python抓取網頁文檔的接口更簡潔;相比於其餘動態腳本語言,Python的urllib2包提供了較爲完整的訪問網頁文檔的API。此外,python中有優秀的第三方包能夠高效實現網頁抓取,並可用極短的代碼完成網頁的標籤過濾功能。編程
Python爬蟲架構組成:markdown
1. URL管理器:管理待爬取的url集合和已爬取的url集合,傳送待爬取的url給網頁下載器;網絡
2. 網頁下載器:爬取url對應的網頁,存儲成字符串,傳送給網頁解析器;架構
3. 網頁解析器:解析出有價值的數據,存儲下來,同時補充url到URL管理器。python爬蟲
Python爬蟲工做原理:框架
Python爬蟲經過URL管理器,判斷是否有待爬URL,若是有待爬URL,經過調度器進行傳遞給下載器,下載URL內容,並經過調度器傳送給解析器,解析URL內容,並將價值數據和新URL列表經過調度器傳遞給應用程序,並輸出價值信息的過程。scrapy
Python爬蟲經常使用框架有:編程語言
grab:網絡爬蟲框架;分佈式
scrapy:網絡爬蟲框架,不支持Python3;
pyspider:一個強大的爬蟲系統;
cola:一個分佈式爬蟲框架;
portia:基於Scrapy的可視化爬蟲;
restkit:Python的HTTP資源工具包。它能夠讓你輕鬆地訪問HTTP資源,並圍繞它創建的對象。
demiurge:基於PyQuery的爬蟲微框架。