python的爬蟲

requests庫的安裝json

https://blog.csdn.net/xiaokuang5020/article/details/80580631服務器

 

Response對象屬性cookie

屬性                          說明網絡

r.status_code              HTTP請求的返回狀態,200表示鏈接成功,404表示失敗app

r.text                  HTTP響應內容的字符串形式,即,url對應的頁面內容post

r.encoding                從HTTP Header中猜想的響應內容編碼方式ui

r.apparent_encoding                     從內容中分析出的響應內容編碼方式(備選編碼方式)編碼

r.content                HTTP響應內容的二進制形式url

 

 

 Requests庫的7個主要方法.net

方法                          說明

requests.request( )                  構造一個請求,支撐如下各方法的基礎方法

requests.get()                                          獲取HTML網頁的主要方法,對應於HTTP的GET

requests.head()                    獲取HTML網頁頭信息的方法,對應於HTTP的HEAD

requests.post( )                    向HTML網頁提交POST請求的方法,對應於HTTP的POST              

requests.put( )                    向HTML網頁提交PUT請求的方法,對應於HTTP的PUT

requests. patch()                   向HTML網頁提交局部修改請求,對應於HTTP的PATCH

requests.delete( )                   向HTML頁面提交刪除請求,對應於HTTP的DELETE

 

PS:

HTTP協議

HTTP:Hypertext  Transfer     Protocol   , 超文本傳輸協議

HTTP是一個基於"請求與響應"模式的, 無狀態的應用層協議

HTTP協議採用URL做爲定位網絡資源的標識,URL格式以下:

        http://host[:port][path]

     host:合法的Internet主機域名或IP地址

     port:端口號,缺省端口爲80

     path:請求資源的路徑

HTTP URL實例:

    http://www.baidu.com

    http://220.181.111.188/duty

HTTP URL的理解

  URL是經過HTTP協議存取資源的Internet路徑 , 一個URL對應一個數據資源

 

HTTP協議對資源的操做

方法                說明

GET        請求獲取URL位置的資源

HEAD       請求獲取URL位置資源的響應消息報告,即得到該資源的頭部信息

POST          請求向URL位置的資源後附加新的數據

PUT          請求向URL位置存儲一個資源,覆蓋原URL位置的資源

PATCH        請求局部更新URL位置的資源,即改變該處資源的部份內容

DELETE         請求刪除URL位置存儲的資源

 

 

PATCH和PUT的區別

PATCH 僅向URL提交局部更新的要求

PUT必須將全部資源更新

PATCH的最主要好處:節省網絡帶寬

 

 

 

 

Requests庫的異常

 異常                            說明

requests.ConnectionError                網絡鏈接錯誤異常,如DNS查詢失敗,拒絕鏈接等

requests.HTTPError                    HTTP錯誤異常

requests.URLRequired                  URL缺失異常

requests.TooManyRedirects               超過最大重定向次數,產生重定向異常

requests.ConnectTimeout                

requests.Timeout                  

 

1. request.get()

 

 

requests.get( url ,  params = None , ** Kwargs)

url            : 擬獲取頁面的url連接

params    : url中的額外參數,字典或字節流格式,可選

**Kwargs : 12個控制訪問的參數

 

2.requests.request(method , url , **kwargs)

method:請求方式,對應get/put/post等7種

url   擬獲取頁面的url連接

**kwargs 控制訪問的參數,共12個

 

method :請求方式

  r = requests.request('GET' , url  , **kwargs)

  r = requests.request('HEAD' , url , **kwargs)

  r = requests.request('POST' , url , **kwargs)

  r = requests.request('PUT' , url , **kwargs)

  r = requests.request('PATCH' , url , **kwargs)

  r = requests.request('DELETE' , url , **kwargs)

  r = requests.request('OPTIONS' , url , **kwargs)

**kwargs :控制訪問的參數 ,均爲可選項

  params : 字典或字節排列 , 做爲參數增長到url中

  data        字典.字節序列或文件對象,做爲Request的內容

  json        JSON格式的數據,做爲Request的內容

  headers  字典。HTTP定製頭

  cookies   字典或CookieJar , Request中的cookie

  auth        元組,支持HTTP認證功能

  files         字典類型,傳輸文件

  timeout  設定超時時間,秒爲單位

  proxies   字典類型,設定訪問代理服務器,能夠增長登陸認證

  allow_redirects  True/False ,默認爲True , 重定向開關

  stream   True/False , 默認爲True , 獲取內容當即下載開關

  verify      True/False, 默認爲True, 認證SSL證書開關

  cert       本地SSL證書路徑

 

3.requests.head(url , ** kwargs)

url   擬獲取頁面的url連接

**kwargs 控制訪問的參數,共12個

4.requests.post(url , data = None , json = None , **kwargs  )

url   擬獲取頁面的url連接

data        字典.字節序列或文件 , Request的內容

json         JSON格式的數據,Request的內容

**kwargs 控制訪問的參數,共12個

5.requests.put(url , data=None , ** kwargs)

url   擬獲取頁面的url連接

data        字典.字節序列或文件 , Request的內容

**kwargs 控制訪問的參數,共12個

6.requests.patch(url , data=None , ** kwargs)

url   擬獲取頁面的url連接

data        字典.字節序列或文件 , Request的內容

**kwargs 控制訪問的參數,共12個

7..requests.delete(url , ** kwargs)

url   擬獲取頁面的url連接

**kwargs 控制訪問的參數,共12個

相關文章
相關標籤/搜索