1、cookiepython
1.requests能夠自動處理cookie信息git
import requests rsp = requests.get("http://www.baidu.com") #若是對方服務器給傳送過來cookie信息,則能夠同經過反饋的cookie屬性獲得 #返回一個cookiejar的實例 cookiejar = rsp.cookies print(cookiejar) #能夠將cookiejar轉換爲字典 cookiedict = requests.utils.dict_from_cookiejar(cookiejar) print(cookiedict)
2、sessiongithub
1.跟服務器端的session不是一個東西正則表達式
2.模擬一次會話,從客戶端瀏覽器連接服務器開始,到客戶端瀏覽器斷開瀏覽器
3.能讓咱們跨請求保持某些參數,好比在同一個session實例發出的全部請求之間保持cookie服務器
import requests #建立session對象,能夠暴捶cookie的值 ss = requests.session() headers = {"User-Agent":"xxxxxxxxxxxxxxxxxxxxxxxxx"} data = {"name":"xxxxxxxxxxxxxxxxxxxxxx"} #此時,由建立的session管理請求,負責發出請求 ss.post("http://www.baidu.com",data=data,headers=headers) rsp = ss.get("xxxxxxxxxxxxx")
3、https請求驗證ssl證書微信
1.參數verify負責表示是否須要驗證ssl證書,默認是Truecookie
2.若是不須要驗證ssl證書,則設置成False表示關閉session
import requests rsp1 = requests.get("https://www.baidu.com",verify=False) #若是用verify=True訪問12306,會報錯,由於它的證書有問題
4、數據提取post
1.頁面解析和數據提取
(1)結構數據:現有的結構,後有的數據
例如:JSON文件(JSON Path)(轉化爲Python類型進行操做)、XML文件(轉換爲python類型(xmltodict)、Xpath、CSS選擇器、正則
(2)非結構化數據:先有數據,後有的結構
例如:文本文件、電話號碼、郵箱地址(一般處理此類數據,使用正則表達式)、Html文件(使用正則、Xpath、CSS選擇器)
5、源碼
Reptitle11_1_cookieAndSession.py
Reptitle11_2_SessionAnalysis.py
https://github.com/ruigege66/PythonReptile/blob/master/Reptitle11_1_cookieAndSession.py
https://github.com/ruigege66/PythonReptile/blob/master/Reptitle11_2_SessionAnalysis.py
2.CSDN:https://blog.csdn.net/weixin_44630050
3.博客園:https://www.cnblogs.com/ruigege0000/
4.歡迎關注微信公衆號:傅里葉變換,我的公衆號,僅用於學習交流,後臺回覆」禮包「,獲取大數據學習資料