我遇到過的常見的高逼格內容反爬

1,文字轉圖片,採集58同城,和百度知道,觸發反爬機制後,會出現。解決辦法:忘記了當時是怎麼處理過的,找不到源碼了~,可是單個的文字或者字符使用谷歌的OCR的包準確率也是很是高的。面試

2,傳字符編碼到頁面,頁面渲染字體才能獲得實際的內容。解決辦法:相關的包:from fontTools.ttLib import TTFont瀏覽器

3,利用js改變,計算,解密獲得你能在審查元素找到的值,可是在response的文本看不到。解決辦法:簡單的js直接用本身的語言實現一遍計算過程,複雜一點的,相關包:import execjs,再更加複雜的,直接調用瀏覽器實例獲得渲染結果,帶界面的用from PyQt4.QtWebKit import *,這個能夠來實現複雜麻煩的模擬登入,不帶界面的就用phantomjs和selenium。安全

4,app的https協議傳輸內容,是使用自帶證書和嚴格驗證ssl的app,就是讓你抓不到包。服務器

Android應用程序在使用https協議時也使用相似的3種方式驗證服務器身份,分別是系統證書庫、自帶證書庫、自帶證書庫 + SSL Pinning特性。因此SSL Pinning,即SSL證書綁定,是驗證服務器身份的一種方式,是在https協議創建通訊時增長的代碼邏輯,它經過本身的方式驗證服務器身份,而後決定通訊是否繼續下去。它惟一指定了服務器的身份,因此安全性較高。app

這種用xposed 去hood,可用模塊:JustTrustMe
5,app的TCP傳輸內容,非http/https協議,只能是找到發送請求的方法去hook獲得發送前的參數了(研究中。。。)分佈式

6,還聽聞:根據依據 客戶端分辨率和尺寸大小。。。。啥啥啥的,一個面試官說的,我當時都聽矇蔽了,不知所云,如今回想起來,他應該是用相似按鍵精靈的東西來配合操做吧。
7,自帶ip庫的,有技術實力作ip庫的,全部的ip在他那裏訪問都會留下記錄,不管你換UA仍是登入,稍微過度一點就能觸發反爬,對這種反爬,只能集羣+分佈式,單進程單ip溫柔對待.字體

我的原創,轉載必究,原文地址:https://my.oschina.net/u/2367514/blog/1921388編碼

相關文章
相關標籤/搜索