爬蟲(五)：代理IP、Cookie

時間 2019-12-18

原文原文鏈接

1. 代理IP

代理IP這個功能呢，在urllib和requests中都存在，可是這個在大的爬蟲項目中是很是重要的，因此我拿出來單獨講解。html

對於某些網站，若是同一個 IP 短期內發送大量請求，則可能會將該 IP 斷定爲爬蟲，進而對該 IP 進行封禁java

因此咱們有必要使用隨機的 IP 地址來繞開這一層檢查。咱們能夠去找那些提供免費IP地址的網站，可是這些網站的免費代理IP基本上是不穩定的，隨時可能會更新，若是是本身小規模的爬取，可使用免費代理IP。若是是那種大型的，就須要付費代理IP了。瀏覽器

1.1 urllib使用IP代理

import urllib.request
import random
ip_list = [
    {'http':'61.135.217.7:80'},
    {'http':'182.88.161.204:8123'}
]
proxy_handler = urllib.request.ProxyHandler(random.choice(ip_list))
opener = urllib.request.build_opener(proxy_handler)
response = opener.open('https://www.httpbin.org/ip')
print(response.read().decode('utf-8'))

結果：服務器

1.2 requests使用IP代理

使用requests添加代理也很是簡單，只要在請求的方法中（好比get或者post）傳遞proxies參數就能夠了。 cookie

import requests

url = 'https://httpbin.org/get'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'
}
proxy = {
    'http':'222.217.124.162:8118'
}
resp = requests.get(url,headers=headers,proxies=proxy)
with open('ip.html','w',encoding='utf-8') as fp:
    fp.write(resp.text)

結果：session

ip.html:dom

{
  "args": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Host": "httpbin.org", 
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"
  }, 
  "origin": "183.14.76.230, 183.14.76.230", 
  "url": "https://httpbin.org/get"
}

2. cookie

我之前學java的時候學過cookie了，一直覺得本身博客中也寫了，這裏就來補充一下cookie基礎知識了。post

2.1 什麼是cookie

在網站中，http請求是無狀態的，也就是說即便第一次和服務器鏈接後而且登陸成功後，第二次請求服務器依然不能作到當前請求的是哪一個用戶。cookie的出現就是爲了解決這個問題，第一次登陸後服務器返回一些數據(cookie)給瀏覽器，而後瀏覽器保存在本地，當該用戶發送第二層請求的時候，就會自動的把上一次請求存儲的cookie數據自動的攜帶給服務器，服務器經過瀏覽器攜帶的數據就能判斷當前用戶是誰了。cookie存儲的數據量郵箱，不一樣的瀏覽器有不一樣的存儲大小，但通常不超過4KB，所以使用cookie只能存儲少許的數據。網站

cookie的格式：ui

Set-Cookie: NAME=VALUE; Expires/Max-age=DATE; Path=PATH; Domain=DOMAIN_NAME; SECURE

參數意義：

NAME：cookie的名字。

VALUE：cookie的值。

Expires：cookie的過時時間。

Path：cookie做用的路徑。

Domain：cookie做用的域名。

SECURE：是否只在https協議下起做用。

2.2 urllib操做cookie

一些須要登陸的網站，實際上就是由於沒有cookie信息。咱們想要用代碼的形式訪問這種網站，就必需要有正確的cookie信息才能訪問。

最簡單的方法就是先使用瀏覽器，而後用抓包軟件將數據包中的cookie信息複製下來，放到headers中。

from urllib import request

targetUrl = 'http://www.baidu.com/'
headers = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36",
    "Cookie": "BAIDUID=734868BB44ACDCE4FB2C49DB3AA14669:FG=1 for .baidu.com,BIDUPSID=734868BB44ACDCE4FC561F4D84999535 for .baidu.com,H_PS_PSSID=1429_21101_30211 for .baidu.com,PSTM=1576550373 for .baidu.com,delPer=0 for .baidu.com,BDSVRTM=0 for www.baidu.com,BD_HOME=0 for www.baidu.com"
}
reqObj = request.Request(url=targetUrl, headers=headers)
resp = request.urlopen(reqObj)
print(resp.read().decode('utf-8'))

可是每次在訪問須要cookie的頁面都要從瀏覽器中複製cookie比較麻煩。Python處理cookie，通常是經過http.cookiejar模塊和urllib模塊的HTTPCookieProcessor處理器類一塊兒使用。http.cookiejar模塊主要做用是提供用於存儲cookie的對象。而HTTPCookieProcessor處理器主要做用是處理這些cookie對象，並構建handler對象。

http.cookiejar模塊主要的類有 CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。這四個類的做用分別以下：

CookieJar

管理HTTPcookie的值、存儲HTTP請求生成的cookie、向傳出的HTTP請求添加cookie的對象。整個cookie都存儲在內存中，對CookieJar實例進行垃圾回收後cookie也將丟失。

FileCookieJar (filename, delayload=None, policy=None)

從CookieJar派生而來，用來建立FileCookieJar實例，檢索cookie信息並將cookie存儲到文件中。filename是存儲cookie的文件名。delayload爲True時支持延遲訪問文件，即只有在須要時纔讀取文件或在文件中存儲數據。

MozillaCookieJar (filename, delayload=None, policy=None)

從FileCookieJar派生而來，建立與Mozilla瀏覽器cookies.txt兼容的FileCookieJar實例。

LWPCookieJar (filename, delayload=None, policy=None)

從FileCookieJar派生而來，建立與libwww-per標準的Set-Cookie3文件格式兼容的FileCookieJar實例。

利用http.cookiejar和request.HTTPCookieProcessor獲取Cookie：

import urllib.request
import http.cookiejar cookie = http.cookiejar.CookieJar() cookie_handler = urllib.request.HTTPCookieProcessor(cookie) opener = urllib.request.build_opener(cookie_handler) response = opener.open('http://www.baidu.com/') for item in cookie: print(item.name + '=' + item.value)

保存Cookie到本地文件，並調用本地文件來進行請求：

import urllib.request
import http.cookiejar # 將 Cookie 保存到文件 cookie = http.cookiejar.MozillaCookieJar('cookie.txt') cookie_handler = urllib.request.HTTPCookieProcessor(cookie) opener = urllib.request.build_opener(cookie_handler) response = opener.open('http://www.baidu.com/') cookie.save(ignore_discard=True,ignore_expires=True) # 從文件讀取 Cookie 並添加到請求中 cookie2 = http.cookiejar.MozillaCookieJar() cookie2 = cookie2.load('cookie.txt',ignore_discard=True,ignore_expires=True) cookie_handler = urllib.request.HTTPCookieProcessor(cookie2) opener = urllib.request.build_opener(cookie_handler) response = opener.open('http://www.baidu.com/') # 此時已經獲得帶有 Cookie 請求返回的響應

2.3 requests操做cookie

和代理IP同樣，若是響應中包含了cookie，那麼能夠利用cookies屬性拿到這個返回的cookie值。

import requests
url = 'http://www.httpbin.org/cookies'
cookies = {
    'name1':'value1',
    'name2':'value2'
}
response = requests.get(url=url,cookies=cookies)
print(response.text)

session：

以前使用 urllib庫，是可使用 opener發送多個請求，多個請求之間是能夠共享 cookie的。那麼若是使用 requests，也要達到共享 cookie的目的，那麼可使用 requests庫給咱們提供的 session對象。注意，這裏的 session不是Web開發中的那個session，這個地方只是一個會話的對象而已。

import requests
url = 'http://www.httpbin.org/cookies'
cookies = {
    'name1':'value1',
    'name2':'value2'
}
session = requests.session()
response = session.get(url=url,cookies=cookies)
print(response.text)

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。