原文地址:https://github.com/lining0806/PythonSpiderNoteshtml
Python學習網絡爬蟲主要分3個大的版塊:抓取,分析,存儲java
另外,比較經常使用的爬蟲框架Scrapy,這裏最後也詳細介紹一下。python
首先列舉一下本人總結的相關文章,這些覆蓋了入門網絡爬蟲須要的基本概念和技巧:寧哥的小站-網絡爬蟲mysql
當咱們在瀏覽器中輸入一個url後回車,後臺會發生什麼?好比說你輸入fireling的數據空間,你就會看到寧哥的小站首頁。git
簡單來講這段過程發生瞭如下四個步驟:github
網絡爬蟲要作的,簡單來講,就是實現瀏覽器的功能。經過指定url,直接返回給用戶所須要的數據,而不須要一步步人工去操縱瀏覽器獲取。正則表達式
抓取sql
這一步,你要明確要獲得的內容是是什麼?是HTML源碼,仍是Json格式的字符串等。mongodb
1. 最基本的抓取數據庫
抓取大多數狀況屬於get請求,即直接從對方服務器上獲取數據。
首先,Python中自帶urllib及urllib2這兩個模塊,基本上能知足通常的頁面抓取。另外,requests也是很是有用的包,與此相似的,還有httplib2等等。
Requests:
import requests
response = requests.get(url)
content = requests.get(url).content
print "response headers:", response.headers
print "content:", content
Urllib2:
import urllib2
response = urllib2.urlopen(url)
content = urllib2.urlopen(url).read()
print "response headers:", response.headers
print "content:", content
Httplib2:
import httplib2
http = httplib2.Http()
response_headers, content = http.request(url, 'GET')
print "response headers:", response_headers
print "content:", content
此外,對於帶有查詢字段的url,get請求通常會未來請求的數據附在url以後,以?分割url和傳輸數據,多個參數用&鏈接。
data = {'data1':'XXXXX', 'data2':'XXXXX'}
Requests:data爲dict,json
import requests
response = requests.get(url=url, params=data)
Urllib2:data爲string
import urllib, urllib2
data = urllib.urlencode(data)
full_url = url+'?'+data
response = urllib2.urlopen(full_url)
相關參考:網易新聞排行榜抓取回顧
2. 對於登錄狀況的處理
2.1 使用表單登錄
這種狀況屬於post請求,即先向服務器發送表單數據,服務器再將返回的cookie存入本地。
data = {'data1':'XXXXX', 'data2':'XXXXX'}
Requests:data爲dict,json
import requests
response = requests.post(url=url, data=data)
Urllib2:data爲string
import urllib, urllib2
data = urllib.urlencode(data)
req = urllib2.Request(url=url, data=data)
response = urllib2.urlopen(req)
2.2 使用cookie登錄
使用cookie登錄,服務器會認爲你是一個已登錄的用戶,因此就會返回給你一個已登錄的內容。所以,須要驗證碼的狀況可使用帶驗證碼登錄的cookie解決。
import requests
requests_session = requests.session()
response = requests_session.post(url=url_login, data=data)
若存在驗證碼,此時採用response = requests_session.post(url=url_login, data=data)是不行的,作法應該以下:
response_captcha = requests_session.get(url=url_login, cookies=cookies)
response1 = requests.get(url_login) # 未登錄
response2 = requests_session.get(url_login) # 已登錄,由於以前拿到了Response Cookie!
response3 = requests_session.get(url_results) # 已登錄,由於以前拿到了Response Cookie!
相關參考:網絡爬蟲-驗證碼登錄
3. 對於反爬蟲機制的處理
3.1 使用代理
適用狀況:限制IP地址狀況,也可解決因爲「頻繁點擊」而須要輸入驗證碼登錄的狀況。
這種狀況最好的辦法就是維護一個代理IP池,網上有不少免費的代理IP,參差不齊,能夠經過篩選找到能用的。對於「頻繁點擊」的狀況,咱們還能夠經過限制爬蟲訪問網站的頻率來避免被網站禁掉。
proxies = {'http':'http://XX.XX.XX.XX:XXXX'}
Requests:
import requests
response = requests.get(url=url, proxies=proxies)
Urllib2:
import urllib2
proxy_support = urllib2.ProxyHandler(proxies)
opener = urllib2.build_opener(proxy_support, urllib2.HTTPHandler)
urllib2.install_opener(opener) # 安裝opener,此後調用urlopen()時都會使用安裝過的opener對象
response = urllib2.urlopen(url)
3.2 時間設置
適用狀況:限制頻率狀況。
Requests,Urllib2均可以使用time庫的sleep()函數:
import time
time.sleep(1)
3.3 假裝成瀏覽器,或者反「反盜鏈」
有些網站會檢查你是否是真的瀏覽器訪問,仍是機器自動訪問的。這種狀況,加上User-Agent,代表你是瀏覽器訪問便可。有時還會檢查是否帶Referer信息還會檢查你的Referer是否合法,通常再加上Referer。
headers = {'User-Agent':'XXXXX'} # 假裝成瀏覽器訪問,適用於拒絕爬蟲的網站
headers = {'Referer':'XXXXX'}
headers = {'User-Agent':'XXXXX', 'Referer':'XXXXX'}
Requests:
response = requests.get(url=url, headers=headers)
Urllib2:
import urllib, urllib2
req = urllib2.Request(url=url, headers=headers)
response = urllib2.urlopen(req)
4. 對於斷線重連
很少說。
def multi_session(session, *arg):
while True:
retryTimes = 20
while retryTimes>0:
try:
return session.post(*arg)
except:
print '.',
retryTimes -= 1
或者
def multi_open(opener, *arg):
while True:
retryTimes = 20
while retryTimes>0:
try:
return opener.open(*arg)
except:
print '.',
retryTimes -= 1
這樣咱們就可使用multi_session或multi_open對爬蟲抓取的session或opener進行保持。
5. 多進程抓取
這裏針對華爾街見聞進行並行抓取的實驗對比:Python多進程抓取 與 Java單線程和多線程抓取
相關參考:關於Python和Java的多進程多線程計算方法對比
6. 對於Ajax請求的處理
對於「加載更多」狀況,使用Ajax來傳輸不少數據。
它的工做原理是:從網頁的url加載網頁的源代碼以後,會在瀏覽器裏執行JavaScript程序。這些程序會加載更多的內容,「填充」到網頁裏。這就是爲何若是你直接去爬網頁自己的url,你會找不到頁面的實際內容。
這裏,若使用Google Chrome分析」請求「對應的連接(方法:右鍵→審查元素→Network→清空,點擊」加載更多「,出現對應的GET連接尋找Type爲text/html的,點擊,查看get參數或者複製Request URL),循環過程。
7. 自動化測試工具Selenium
Selenium是一款自動化測試工具。它能實現操縱瀏覽器,包括字符填充、鼠標點擊、獲取元素、頁面切換等一系列操做。總之,凡是瀏覽器能作的事,Selenium都可以作到。
這裏列出在給定城市列表後,使用selenium來動態抓取去哪兒網的票價信息的代碼。
參考項目:網絡爬蟲之Selenium使用代理登錄:爬取去哪兒網站
8. 驗證碼識別
對於網站有驗證碼的狀況,咱們有三種辦法:
使用代理和使用cookie登錄以前已經講過,下面講一下驗證碼識別。
能夠利用開源的Tesseract-OCR系統進行驗證碼圖片的下載及識別,將識別的字符傳到爬蟲系統進行模擬登錄。若是不成功,能夠再次更新驗證碼識別,直到成功爲止。
參考項目:Captcha1
爬取有兩個須要注意的問題:
分析
抓取以後就是對抓取的內容進行分析,你須要什麼內容,就從中提煉出相關的內容來。
常見的分析工具備正則表達式,BeautifulSoup,lxml等等。
存儲
分析出咱們須要的內容以後,接下來就是存儲了。
咱們能夠選擇存入文本文件,也能夠選擇存入MySQL或MongoDB數據庫等。
存儲有兩個須要注意的問題:
Scrapy
Scrapy是一個基於Twisted的開源的Python爬蟲框架,在工業中應用很是普遍。
相關內容能夠參考基於Scrapy網絡爬蟲的搭建,同時給出這篇文章介紹的微信搜索爬取的項目代碼,給你們做爲學習參考。