我遇到過的常見的高逼格內容反爬

時間 2019-11-13

標籤遇到常見的內容简体版

原文原文鏈接

1，文字轉圖片，採集58同城，和百度知道，觸發反爬機制後，會出現。解決辦法：忘記了當時是怎麼處理過的,找不到源碼了~，可是單個的文字或者字符使用谷歌的OCR的包準確率也是很是高的。面試

2，傳字符編碼到頁面，頁面渲染字體才能獲得實際的內容。解決辦法：相關的包：from fontTools.ttLib import TTFont瀏覽器

3，利用js改變，計算，解密獲得你能在審查元素找到的值，可是在response的文本看不到。解決辦法：簡單的js直接用本身的語言實現一遍計算過程，複雜一點的，相關包：import execjs，再更加複雜的，直接調用瀏覽器實例獲得渲染結果，帶界面的用from PyQt4.QtWebKit import *,這個能夠來實現複雜麻煩的模擬登入，不帶界面的就用phantomjs和selenium。安全

4，app的https協議傳輸內容，是使用自帶證書和嚴格驗證ssl的app,就是讓你抓不到包。服務器

Android應用程序在使用https協議時也使用相似的3種方式驗證服務器身份，分別是系統證書庫、自帶證書庫、自帶證書庫 + SSL Pinning特性。因此SSL Pinning，即SSL證書綁定，是驗證服務器身份的一種方式，是在https協議創建通訊時增長的代碼邏輯，它經過本身的方式驗證服務器身份，而後決定通訊是否繼續下去。它惟一指定了服務器的身份，因此安全性較高。app

這種用xposed 去hood，可用模塊：JustTrustMe
5，app的TCP傳輸內容，非http/https協議，只能是找到發送請求的方法去hook獲得發送前的參數了（研究中。。。）分佈式

6，還聽聞：根據依據客戶端分辨率和尺寸大小。。。。啥啥啥的，一個面試官說的，我當時都聽矇蔽了，不知所云，如今回想起來，他應該是用相似按鍵精靈的東西來配合操做吧。
7，自帶ip庫的，有技術實力作ip庫的，全部的ip在他那裏訪問都會留下記錄，不管你換UA仍是登入，稍微過度一點就能觸發反爬，對這種反爬，只能集羣+分佈式，單進程單ip溫柔對待.字體

我的原創，轉載必究，原文地址：https://my.oschina.net/u/2367514/blog/1921388編碼

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。