一些網站會有相應的反爬蟲措施,例如不少網站會檢測某一段時間某個IP的訪問次數,若是訪問頻率太快以致於看起來不像正常訪客,它可能就會會禁止這個IP的訪問。因此咱們須要設置一些代理IP,每隔一段時間換一個代理IP,就算IP被禁止,依然能夠換個IP繼續爬取。php
代理服務器:fiddlercss
提供代理服務器ip的平臺:html
1.www.goubanjia.compython
2.快代理ajax
3.西祠代理redis
4.代理精靈:http://http.zhiliandaili.cn數據庫
爲何使用了代理就能夠更改請求對應的ip呢:本機的請求會先發送給代理服務器,代理服務器會接受本機發送過來的請求(當前請求對應的ip就是本機ip),而後代理服務器會將該請求進行轉發,轉發以後的請求對應的ip就是代理服務器的ip。json
#生成多個代理ip並爬取 all_ips = [] ip_url = 'http://ip.11jsq.com/index.php/api/entry?method=proxyServer.generate_api_url&packid=1&fa=0&fetch_key=&groupid=0&qty=53&time=1&pro=&city=&port=1&format=html&ss=5&css=&dt=1&specialTxt=3&specialJson=' page_text = requests.get(ip_url,headers=headers).text tree = etree.HTML(page_text) ip_list = tree.xpath('//body//text()') for ip in ip_list: ip = {'https':ip} all_ips.append(ip) url = 'https://www.xicidaili.com/nn/%d' for page in range(1,100): print('正在爬取第{}頁的數據!'.format(page)) new_url = format(url%page) page_text = requests.get(url=new_url,headers=headers,proxies=random.choice(all_ips)).text tree = etree.HTML(page_text) tr_list = tree.xpath('//*[@id="ip_list"]//tr')[1:] for tr in tr_list: ip = tr.xpath('./td[2]/text()')[0] port = tr.xpath('./td[3]/text()')[0] ip_type = tr.xpath('./td[6]/text()')[0] dic = { 'ip':ip, 'port':port, 'type':ip_type } all_ips.append(dic) print(len(all_ips))
如上圖所示,HTTP協議 是無狀態的協議,用戶瀏覽服務器上的內容,只須要發送頁面請求,服務器返回內容。對於服務器來講,並不關心,也並不知道是哪一個用戶的請求。對於通常瀏覽性的網頁來講,沒有任何問題。
- 可是,如今不少的網站,是須要用戶登陸的。以淘寶爲例:好比說某個用戶想購買一個產品,當點擊 「 購買按鈕 」 時,因爲HTTP協議 是無狀態的,那對於淘寶來講,就不知道是哪一個用戶操做的。
- 爲了實現這種用戶標記,服務器就採用了cookie這種機制來識別具體是哪個用戶的訪問。api
在上圖,爲了實現用戶標記,在Http無狀態請求的基礎之上,咱們須要在請求中攜帶一些用戶信息(好比用戶名之類,這些信息是服務器發送到本地瀏覽器的,可是服務器並不存儲這些信息),這就是cookie機制。瀏覽器
須要注意的是:cookie信息是保存在本地瀏覽器裏面的,服務器上並不存儲相關的信息。 在發送請求時,cookie的這些內容是放在 Http協議中的header 字段中進行傳輸的。
幾乎如今全部的網站都會發送一些 cookie信息過來,當用戶請求中攜帶了cookie信息,服務器就能夠知道是哪一個用戶的訪問了,從而不須要再使用帳戶和密碼登陸。
可是,cookie信息是直接放在Http協議的header中進行傳輸的,一旦別人獲取到你的cookie信息(截獲請求,或者使用你的電腦),那麼他很容易從cookie中分析出你的用戶名和密碼。爲了解決這個隱患,因此有了session機制。
由於cookie不安全,因此有了session機制,整過過程是這樣:
- 服務器根據用戶名和密碼,生成一個session ID,存儲到服務器的數據庫中。
- 用戶登陸訪問時,服務器會將對應的session ID發送給用戶(本地瀏覽器)。
- 瀏覽器會將這個session ID存儲到cookie中,做爲一個鍵值項。
- 之後,瀏覽器每次請求,就會將含有session ID的cookie信息,一塊兒發送給服務器。
- 服務器收到請求以後,經過cookie中的session ID,到數據庫中去查詢,解析出對應的用戶名,就知道是哪一個用戶的請求了。
- cookie 在客戶端(本地瀏覽器),session 在服務器端。cookie是一種瀏覽器本地存儲機制。存儲在本地瀏覽器中,和服務器沒有關係。每次請求,用戶會帶上本地cookie的信息。這些cookie信息也是服務器以前發送給瀏覽器的,或者是用戶以前填寫的一些信息。
- Cookie有不安全機制。 你不能把全部的用戶信息都存在本地,一旦被別人竊取,就知道你的用戶名和密碼,就會很危險。因此引入了session機制。
- 服務器在發送id時引入了一種session的機制,很簡單,就是根據用戶名和密碼,生成了一段隨機的字符串,這段字符串是有過時時間的。
- 必定要注意:session是服務器生成的,存儲在服務器的數據庫或者文件中,而後把sessionID發送給用戶,用戶存儲在本地cookie中。每次請求時,把這個session ID帶給服務器,服務器根據session ID到數據庫中去查詢,找到是哪一個用戶,就能夠對用戶進行標記了。
- session 的運行依賴 session ID,而 session ID 是存在 cookie 中的,也就是說,若是瀏覽器禁用了 cookie ,那麼同時 session 也會失效(可是能夠經過其它方式實現,好比在url中傳遞 session ID)
- 用戶驗證這種場合通常會用 session。 所以,維持一個會話的核心就是客戶端的惟一標識,即session ID
當咱們經過抓包工具捕獲的基於ajax請求的數據包中提取的url
url = 'https://xueqiu.com/v4/statuses/public_timeline_by_category.json?since_id=-1&max_id=20343389&count=15&category=-1' json_data = requests.get(url=url,headers=headers).json() print(json_data) #打印結果:{'error_description': '遇到錯誤,請刷新頁面或者從新登陸賬號後再試', 'error_uri': '/v4/statuses/public_timeline_by_category.json', 'error_data': None, 'error_code': '400016'}
cookie的破解方式
cookie的破解方式 手動處理: 經過抓包工具將請求攜帶的cookie添加到headers中 弊端:cookie會有有效時長,cookie仍是動態變化 自動處理: 使用session進行cookie的自動保存和攜帶 session是能夠進行請求發送的,發送請求的方式和requests同樣 若是使用session進行請求發送,在請求的過程當中產生了cookie,則該cookie會被自動存儲 到session對象中 若是使用了攜帶cookie的session再次進行請求發送,則該次請求就時攜帶cookie進行的請求發送 #建立一個session對象 session = requests.Session() #將cookie保存到session對象中 first_url = 'https://xueqiu.com/' session.get(url=first_url,headers=headers)#爲了獲取cookie且將cookie存儲到session中 url = 'https://xueqiu.com/v4/statuses/public_timeline_by_category.json?since_id=-1&max_id=20343389&count=15&category=-1' json_data = session.get(url=url,headers=headers).json()#攜帶cookie發起的請求 json_data
1.對攜帶驗證碼的頁面數據進行抓取 2.能夠將頁面數據中驗證碼進行解析,驗證碼圖片下載到本地 3.能夠將驗證碼圖片提交給三方平臺進行識別,返回驗證碼圖片上的數據值 驗證碼的識別的網站: 超級鷹:http://www.chaojiying.com/about.html 使用流程: 註冊:用戶中心身份的帳號 登錄: 充值一塊 建立一個軟件:軟件ID-》生成一個軟件ID 下載示例代碼:下載基於python的示例代碼 雲打碼:http://www.yundama.com/demo.html
編輯驗證碼的類
import requests from hashlib import md5 class Chaojiying_Client(object): def __init__(self, username, password, soft_id): self.username = username password = password.encode('utf8') self.password = md5(password).hexdigest() self.soft_id = soft_id self.base_params = { 'user': self.username, 'pass2': self.password, 'softid': self.soft_id, } self.headers = { 'Connection': 'Keep-Alive', 'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)', } def PostPic(self, im, codetype): """ im: 圖片字節 codetype: 題目類型 參考 http://www.chaojiying.com/price.html """ params = { 'codetype': codetype, } params.update(self.base_params) files = {'userfile': ('ccc.jpg', im)} r = requests.post('http://upload.chaojiying.net/Upload/Processing.php', data=params, files=files, headers=self.headers) return r.json() def ReportError(self, im_id): """ im_id:報錯題目的圖片ID """ params = { 'id': im_id, } params.update(self.base_params) r = requests.post('http://upload.chaojiying.net/Upload/ReportError.php', data=params, headers=self.headers) return r.json()
正常網站驗證碼識別操做
def getCodeImgText(imgPath,imgType): chaojiying = Chaojiying_Client('bobo328410948', 'bobo328410948', '899370')#用戶中心>>軟件ID 生成一個替換 96001 #第一個是用戶名,第二個是密碼 im = open(imgPath, 'rb').read()#本地圖片文件路徑 來替換 a.jpg 有時WIN系統需要// return chaojiying.PostPic(im,imgType)['pic_str'] #古詩文網的驗證碼識別操做 url = 'https://so.gushiwen.org/user/login.aspx?from=http://so.gushiwen.org/user/collect.aspx' page_text = requests.get(url,headers=headers).text tree = etree.HTML(page_text) img_src = 'https://so.gushiwen.org'+tree.xpath('//*[@id="imgCode"]/@src')[0] print(img_src) img_data = requests.get(url=img_src,headers=headers).content with open('codeImg.jpg','wb') as fp: fp.write(img_data) #進行驗證碼的識別 getCodeImgText('codeImg.jpg',1004)
使用session機制全程代碼
s = requests.Session() #模擬登錄 #古詩文網的驗證碼識別操做 url = 'https://so.gushiwen.org/user/login.aspx?from=http://so.gushiwen.org/user/collect.aspx' page_text = s.get(url,headers=headers).text tree = etree.HTML(page_text) img_src = 'https://so.gushiwen.org'+tree.xpath('//*[@id="imgCode"]/@src')[0] img_data = s.get(url=img_src,headers=headers).content with open('codeImg.jpg','wb') as fp: fp.write(img_data) #解析動態變化的請求參數 __VIEWSTATE = tree.xpath('//input[@id="__VIEWSTATE"]/@value')[0] __VIEWSTATEGENERATOR = tree.xpath('//input[@id="__VIEWSTATEGENERATOR"]/@value')[0] print(__VIEWSTATE,__VIEWSTATEGENERATOR) #進行驗證碼的識別 code_text = getCodeImgText('codeImg.jpg',1004) print(code_text) login_url = 'https://so.gushiwen.org/user/login.aspx?from=http%3a%2f%2fso.gushiwen.org%2fuser%2fcollect.aspx' data = { #下面兩個請求參數是動態變化 #通長狀況下動態變化的請求參數會被隱藏在前臺頁面中 '__VIEWSTATE': __VIEWSTATE, '__VIEWSTATEGENERATOR': __VIEWSTATEGENERATOR, 'from': 'http://so.gushiwen.org/user/collect.aspx', 'email': 'www.zhangbowudi@qq.com', 'pwd': 'bobo328410948', 'code': code_text, 'denglu': '登陸', } #登錄成功以後對應的首頁頁面源碼 main_page_text = s.post(url=login_url,headers=headers,data=data).text with open('./main.html','w',encoding='utf-8') as fp: fp.write(main_page_text)
其實爬蟲的本質就是client發請求批量獲取server的響應數據,若是咱們有多個url待爬取,只用一個線程且採用串行的方式執行,那隻能等待爬取一個結束後才能繼續下一個,效率會很是低。須要強調的是:對於單線程下串行N個任務,並不徹底等同於低效,若是這N個任務都是純計算的任務,那麼該線程對cpu的利用率仍然會很高,之因此單線程下串行多個爬蟲任務低效,是由於爬蟲任務是明顯的IO密集型(阻塞)程序。
from multiprocessing.dummy import Pool #線程池模塊 #必須只能夠有一個參數 def my_requests(url): return requests.get(url=url,headers=headers).text start = time.time() urls = [ 'http://127.0.0.1:5000/bobo', 'http://127.0.0.1:5000/jay', 'http://127.0.0.1:5000/tom', ] pool = Pool(3) #map:兩個參數 #參數1:自定義的函數,必須只能夠有一個參數 #參數2:列表or字典 #map的做用就是讓參數1表示的自定義的函數異步處理參數2對應的列表或者字典中的元素 page_texes = pool.map(my_requests,urls) print(page_texes) print(time.time()-start)