Python爬蟲連載11-cookie、session、驗證SSL證書、數據提取簡介

時間 2020-03-01

標籤 python 爬蟲連載 cookie session 驗證 ssl 證書數據提取簡介欄目 Python 简体版

原文原文鏈接

1、cookiepython

1.requests能夠自動處理cookie信息git

import requests

rsp = requests.get("http://www.baidu.com")

#若是對方服務器給傳送過來cookie信息，則能夠同經過反饋的cookie屬性獲得

#返回一個cookiejar的實例

cookiejar = rsp.cookies

print(cookiejar)



#能夠將cookiejar轉換爲字典

cookiedict = requests.utils.dict_from_cookiejar(cookiejar)

print(cookiedict)

2、sessiongithub

1.跟服務器端的session不是一個東西正則表達式

2.模擬一次會話，從客戶端瀏覽器連接服務器開始，到客戶端瀏覽器斷開瀏覽器

3.能讓咱們跨請求保持某些參數，好比在同一個session實例發出的全部請求之間保持cookie服務器

import requests



#建立session對象，能夠暴捶cookie的值

ss = requests.session()



headers = {"User-Agent":"xxxxxxxxxxxxxxxxxxxxxxxxx"}



data = {"name":"xxxxxxxxxxxxxxxxxxxxxx"}



#此時，由建立的session管理請求，負責發出請求

ss.post("http://www.baidu.com",data=data,headers=headers)

rsp = ss.get("xxxxxxxxxxxxx")

3、https請求驗證ssl證書微信

1.參數verify負責表示是否須要驗證ssl證書，默認是Truecookie

2.若是不須要驗證ssl證書，則設置成False表示關閉session

 

import requests

rsp1 = requests.get("https://www.baidu.com",verify=False)

#若是用verify=True訪問12306,會報錯，由於它的證書有問題

4、數據提取post

1.頁面解析和數據提取

（1）結構數據：現有的結構，後有的數據

例如：JSON文件（JSON Path）（轉化爲Python類型進行操做）、XML文件（轉換爲python類型（xmltodict)、Xpath、CSS選擇器、正則

（2）非結構化數據：先有數據，後有的結構

例如：文本文件、電話號碼、郵箱地址（一般處理此類數據，使用正則表達式）、Html文件（使用正則、Xpath、CSS選擇器）

5、源碼

Reptitle11_1_cookieAndSession.py

Reptitle11_2_SessionAnalysis.py

https://github.com/ruigege66/PythonReptile/blob/master/Reptitle11_1_cookieAndSession.py

https://github.com/ruigege66/PythonReptile/blob/master/Reptitle11_2_SessionAnalysis.py

2.CSDN：https://blog.csdn.net/weixin_44630050

3.博客園：https://www.cnblogs.com/ruigege0000/

4.歡迎關注微信公衆號：傅里葉變換，我的公衆號，僅用於學習交流，後臺回覆」禮包「，獲取大數據學習資料

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。