Python爬蟲連載11-cookie、session、驗證SSL證書、數據提取簡介

1、cookiepython

1.requests能夠自動處理cookie信息git

 

import requests

rsp = requests.get("http://www.baidu.com")

#若是對方服務器給傳送過來cookie信息,則能夠同經過反饋的cookie屬性獲得

#返回一個cookiejar的實例

cookiejar = rsp.cookies

print(cookiejar)

​

#能夠將cookiejar轉換爲字典

cookiedict = requests.utils.dict_from_cookiejar(cookiejar)

print(cookiedict)

 

2、sessiongithub

1.跟服務器端的session不是一個東西正則表達式

2.模擬一次會話,從客戶端瀏覽器連接服務器開始,到客戶端瀏覽器斷開瀏覽器

3.能讓咱們跨請求保持某些參數,好比在同一個session實例發出的全部請求之間保持cookie服務器

 

import requests

​

#建立session對象,能夠暴捶cookie的值

ss = requests.session()

​

headers = {"User-Agent":"xxxxxxxxxxxxxxxxxxxxxxxxx"}

​

data = {"name":"xxxxxxxxxxxxxxxxxxxxxx"}

​

#此時,由建立的session管理請求,負責發出請求

ss.post("http://www.baidu.com",data=data,headers=headers)

rsp = ss.get("xxxxxxxxxxxxx")

 

 

3、https請求驗證ssl證書微信

1.參數verify負責表示是否須要驗證ssl證書,默認是Truecookie

2.若是不須要驗證ssl證書,則設置成False表示關閉session

 

import requests

rsp1 = requests.get("https://www.baidu.com",verify=False)

#若是用verify=True訪問12306,會報錯,由於它的證書有問題

 

 

4、數據提取post

1.頁面解析和數據提取

(1)結構數據:現有的結構,後有的數據

例如:JSON文件(JSON Path)(轉化爲Python類型進行操做)、XML文件(轉換爲python類型(xmltodict)、Xpath、CSS選擇器、正則

(2)​非結構化數據:先有數據,後有的結構

​例如:文本文件、電話號碼、郵箱地址(一般處理此類數據,使用正則表達式)、Html文件(使用正則、Xpath、CSS選擇器)

5、源碼

Reptitle11_1_cookieAndSession.py

Reptitle11_2_SessionAnalysis.py

https://github.com/ruigege66/PythonReptile/blob/master/Reptitle11_1_cookieAndSession.py

https://github.com/ruigege66/PythonReptile/blob/master/Reptitle11_2_SessionAnalysis.py​

2.CSDN:https://blog.csdn.net/weixin_44630050

3.博客園:https://www.cnblogs.com/ruigege0000/

4.歡迎關注微信公衆號:傅里葉變換,我的公衆號,僅用於學習交流,後臺回覆」禮包「,獲取大數據學習資料

 

相關文章
相關標籤/搜索