這種反爬蟲手段有點意思，看我破了它！

時間 2019-11-16

原文原文鏈接

這種反爬蟲手段被普遍應用在一線互聯網企業的產品中，例如汽車資訊類網站、小說類網站等文字密度較大的站點。在開始學習以前，咱們先來看看具體的現象。打開網址：

https://implicit-style-css_0.crawler-lab.com
複製代碼

呈如今咱們眼前的是這樣一個界面：css

此次的任務，就是拿到頁面上所呈現的內容的文本。在編寫爬蟲代碼以前，咱們要作幾件事：html

肯定目標內容的來源，也就是找到響應目標內容的那次請求
肯定目標內容在網頁中的位置

其實就是最基本的觀察和分析。算法

網絡請求方面，打開瀏覽器調試工具並切換到 Network 面板後，看到頁面只加載了 2 個資源：數組

一個 html 文檔和一個 js 文件，想必咱們要的內容就在 html 文檔中。點擊該請求，瀏覽器開發者工具就會分紅兩欄，左側依然是請求記錄列表，右側顯示的是指定請求的詳情。右側面板切換到 Response，就能夠看到服務器響應的內容：瀏覽器

看樣子，咱們要的東西就在此次響應正文中。咋一看，咱們直接取 class 爲 rdtext 的 div 標籤下的 p 標籤中的文本內容便可。然而事情並無那麼簡單，細心的讀者可能發現了，響應正文中顯示的內容和頁面中呈現的文字並不徹底相同——響應正文中少了一些標點符號和文字，多了一些 span 標籤。例如頁面中顯示的是：bash

夜幕團隊 NightTeam 於 2019 年 9 月 9 日正式成立，團隊由爬蟲領域中實力強勁的多名開發者組成：崔慶才、周子淇、陳祥安、唐軼飛、馮威、蔡晉、戴煌金、張冶青和韋世東。
複製代碼

而響應正文中看到的是：服務器

<p>夜幕團隊 NightTeam 於 2019 年 9 月 9 日正式成立<span class="context_kw0"></span>團隊由爬蟲領域中實力強勁<span class="context_kw1"></span>多<span class="context_kw21"></span>開發者組成：崔慶才、周子淇、陳祥安、唐軼飛、馮威、蔡晉、戴煌金、張冶青和韋世東<span class="context_kw2"></span>
</p>
複製代碼

這句話中，被 span 標籤替代的有逗號、的字、名字。總體看一遍，發現這些 span 標籤都帶有 class 屬性。網絡

明眼人一看就知道，又是利用了瀏覽器渲染原理作的反爬蟲措施。不明因此的讀者請去翻閱《Python3 反爬蟲原理與繞過實戰》。app

既然跟 span 和 class 有關，那咱們來看一下 class 屬性到底設置了什麼。class 名爲 context_kw0 的 span 標籤樣式以下：async

.context_kw0::before {
    content: "，";
}
複製代碼

再看看其餘的，class 屬性爲 context_kw21 的 span 標籤樣式以下：

.context_kw21::before {
    content: "名";
}
複製代碼

原來被替換掉的文字出如今這裏！看到這裏，想必聰明的你也知道是怎麼回事了！

解決這個問題的辦法很簡單，只須要提取出 span 標籤 class 屬性名稱對應的 content 值，而後將其恢復到文本中便可。

屬性名有個規律：context_kw + 數字。也就是說 context_kw 有多是固定的，數字是循環出來的，或者是數組中的下標？大膽猜測一下，假設有這麼一個字典：

{0: "，", 1: "的",  21: "名"}
複製代碼

那麼將 context_kw 與字典的鍵組合，就獲得了 class 的名稱，對應的值就做爲 content，這好像很接近了。中高級爬蟲工程師心中都明白：在網頁中，能幹出如此之事惟有藉助 JavaScript。不明白的讀者請去翻閱《Python3 反爬蟲原理與繞過實戰》。

那就搜一下吧！

喚起瀏覽器調試工具的全局搜索功能，輸入 context_kw 並會車。而後在搜索結果中尋找看上去有用的信息，例如：

發現 JavaScript 代碼中出現了 context_kw，關鍵的信息是 .context_kw + i + _0xea12('0x2c')。代碼還混淆了一下！看不出的讀者能夠找做者韋世東報名《JavaScript 逆向系列課》，學完就可以很快找到看上去有用的代碼，而且看懂代碼的邏輯。

這裏手把手帶讀一下這些 JavaScript 代碼。第一段，也就是 977 行代碼原文以下：

var _0xa12e = ['appendChild', 'fromCharCode', 'ifLSL', 'undefined', 'mPDrG', 'DWwdv', 'styleSheets', 'addRule', '::before', '.context_kw', '::before{content:\x20\x22', 'cssRules', 'pad', 'clamp', 'sigBytes', 'YEawH', 'yUSXm', 'PwMPi', 'pLCFG', 'ErKUI', 'OtZki', 'prototype', 'endWith', 'test', '8RHz0u9wbbrXYJjUcstWoRU1SmEIvQZQJtdHeU9/KpK/nBtFWIzLveG63e81APFLLiBBbevCCbRPdingQfzOAFPNPBw4UJCsqrDmVXFe6+LK2CSp26aUL4S+AgWjtrByjZqnYm9H3XEWW+gLx763OGfifuNUB8AgXB7/pnNTwoLjeKDrLKzomC+pXHMGYgQJegLVezvshTGgyVrDXfw4eGSVDa3c/FpDtban34QpS3I=', 'enc', 'Latin1', 'parse', 'window', 'location', 'href', '146385F634C9CB00', 'decrypt', 'ZeroPadding', 'toString', 'split', 'length', 'style', 'type', 'setAttribute', 'async', 'getElementsByTagName', 'NOyra', 'fgQCW', 'nCjZv', 'parentNode', 'insertBefore', 'head'];
        (function (_0x4db306, _0x3b5c31) {
            var _0x24d797 = function (_0x1ebd20) {
                while (--_0x1ebd20) {
                    _0x4db306['push'](_0x4db306['shift']());
                }
            };
複製代碼

往下延伸閱讀，還能看到 CryptoJS 這個詞，看到它就應該曉得代碼中使用了一些加密解密的操做。

第二段，1133 行代碼原文以下：

for (var i = 0x0; i < words[_0xea12('0x18')]; i++) {
            try {
                document[_0xea12('0x2a')][0x0][_0xea12('0x2b')]('.context_kw' + i + _0xea12('0x2c'), 'content:\x20\x22' + words[i] + '\x22');
            } catch (_0x527f83) {
                document['styleSheets'][0x0]['insertRule'](_0xea12('0x2d') + i + _0xea12('0x2e') + words[i] + '\x22}', document[_0xea12('0x2a')][0x0][_0xea12('0x2f')][_0xea12('0x18')]);
            }
        }
複製代碼

這裏循環的是 words，而後將 words 元素的下標和對應元素組合，這和咱們猜測的是很是接近的，如今要找到 words。

怎麼找？

又不會嗎？

搜索就能夠了，順着搜索結果看，找到了定義 words 的代碼：

var secWords = decrypted[_0xea12('0x16')](CryptoJS['enc']['Utf8'])[_0xea12('0x17')](',');
var words = new Array(secWords[_0xea12('0x18')]);
複製代碼

按照這個方法，咱們最後發現 CSS 的 content 的內容都是數組 _0xa12e 中一個通過加密的元素先通過 AES 解密再通過必定處理後獲得的值。

捋清楚邏輯以後，就能夠開始摳出咱們須要的 JS 代碼了。

這個代碼雖然通過混淆，但仍是比較簡單的，因此具體的摳代碼步驟就不演示了，這裏提示一下在摳出代碼以後兩個須要改寫的點。

第一個是下圖中的異常捕獲，這裏判斷了當前的 URL 是否爲原網站的，但調試時，在 Node 環境下執行是沒有 window 對象、document 對象的，若是不作修改會出現異常，因此須要把帶有這些對象的代碼註釋掉，例以下面 if 判斷語句：

try {
	if (top[_0xea12('0x10')][_0xea12('0x11')][_0xea12('0x12')] != window[_0xea12('0x11')]['href']) {
	top['window'][_0xea12('0x11')]['href'] = window[_0xea12('0x11')][_0xea12('0x12')];
}
複製代碼

其餘的地方還須要本身踩坑。

修改完後就能夠獲取到全部被替換過的字符了，接下來只須要把它們替換進 HTML 裏就能夠還原出正常的頁面，replace 就不演示了噢。

反爬蟲原理

例子中用到的是 ::before，下方文字描述了它的做用：

在 CSS 中，::before 用於建立一個僞元素，其將成爲匹配選中的元素的第一個子元素。常經過 content 屬性來爲一個元素添加修飾性的內容。

引用自：developer.mozilla.org/zh-CN/docs/…

舉個例子，新建一個 HTML 文檔，並在裏面寫上以下內容：

<q>你們好，我是鹹魚</q>，<q>我是 NightTeam 的一員</q>
複製代碼

而後爲 q 標籤設置樣式：

q::before { 
  content: "«";
  color: blue;
}
q::after { 
  content: "»";
  color: red;
}
複製代碼

完整代碼以下（寫給沒有 HTML 基礎的朋友）：

<style>

q::before { 
  content: "«";
  color: blue;
}
q::after { 
  content: "»";
  color: red;
}

</style>
<q>你們好，我是鹹魚</q>，<q>我是 NightTeam 的一員</q>
複製代碼

當咱們用瀏覽器打開 HTML 文檔時，看到的內容以下所示：