2019年底逆向複習系列之今日頭條WEB端_signature、as、cp參數逆向分析

鄭重聲明:本項目的全部代碼和相關文章, 僅用於經驗技術交流分享,禁止將相關技術應用到不正當途徑,由於濫用技術產生的風險與本人無關。python

這篇文章是公衆號《雲爬蟲技術研究筆記》的《2019年底逆向複習系列》的第四篇:《今日頭條WEB端_signature、as、cp參數逆向分析》git

本次案例的代碼都已上傳到Review_Reverse上面,後面會持續更新,你們能夠Fork一波。 github

逆向背景

今日頭條算是新聞聚合領域的霸主了,它獨創的推薦算法也是被後續的新聞聚合平臺爭相模仿,雖然如今今日頭條平臺逐漸下沉,面向的讀者羣也愈來愈「俗化」,它的自媒體紅利期也漸漸過去。可是畢竟做爲第一大資訊平臺,它的流量以及內容時效性都會不可小覷的。 算法

上一次分析頭條的時候大概是今年年初的時候,那時候爲了作天然語言處理採集了他們的文章作語料。如今從新來分析他們的參數,看看他們的加密方式是否是改變了。

分析流程與逆向破解

如題所示,咱們此次須要分析的是它的_signatureascp參數,也就是來自於他們獲取新聞的接口 bash

能夠看到,這個接口很明顯是首頁 Feed流數據的接口,咱們具體看看這裏面的參數

min_behot_time: 0
category: __all__
utm_source: toutiao
widen: 1
tadrequire: true
as: A1C50D8EF357F93
cp: 5DE387EF3933DE1
_signature: ICnfJAAgEBpV2FR6HfGzUCAp3zAAH3S
複製代碼

比較重要的咱們猜大概就是ascp_signature,而min_behot_time的值是0, 咱們在看看以後的Feed流數據的接口是什麼樣的 併發

max_behot_time: 1575190175
category: __all__
utm_source: toutiao
widen: 1
tadrequire: true
as: A1D5FD3ED317EE1
cp: 5DE3678E8E41AE1
_signature: YzovjgAgEB0Wy6TQXOBj3mM6L5AAD7d
複製代碼

大部分上看是相同的,可是min_behot_time換成了max_behot_time字段,並且這個值看上去是從以前的首頁Feed流中返回回來的 app

總體流程大體就是這樣,咱們下面去分析它的幾個參數

1. 尋找加密參數的加密方法位置

首先,咱們如今須要分析三個加密參數,ascp_signature,從參數的常見性來講,咱們選擇搜索_signature參數,由於它相比於其餘兩個參數來講,match的代碼塊會少點,咱們比較好找,咱們能夠對比下。 ide

恐怖的151處和3處,並且這3處仍是在同一個js文件,那咱們直接選擇這個 index.2c1dc950e325e1470bb8.js這個文件跟進去,一共就5處,咱們直接在這個文件搜索 _signature字符,找到了這個地方比較像加密的地方
咱們仔細看看這塊代碼段,看看 ascp參數是否是也在這裏生成

{
  key: "_getData",  //K,V結構的Js,看來這段代碼是獲取數據的接口的參數配置
  value: function(t, e, i) {
      var n = this;
      if (!this.lock) { //估計是控制併發的,併發鎖?
          this.lock = !0,
          this._setParams(t); //設置參數?難道是as、cp?
          var a = function() {
              n.lock = !1,
              i && i()
          }
            , o = this._getSignature(this.url, this.params); //能夠看到,這個地方加密了_signature參數
          (0,
          d.default)({
              url: this.url,
              data: (0,
              s.default)({}, this.params, {
                  _signature: o
              }),
              success: function(i) {
                  var s = i || {}
                    , o = s.data || []
                    , r = o.length
                    , l = s.next && s.next.max_behot_time;
                  "success" === s.message && r && (n._qihuAdInsert(o),
                  o = n._dataPreHandle(o),
                  "refresh" === t ? (n._refreshItem = {
                      refresh_mode: !0,
                      behot_time: l,
                      time_ago: (0,
                      p.timeAgo)(l),
                      _index: o.length
                  },
                  n.list = o.concat(n.list)) : n.list = n.list.concat(o),
                  e && e(n.getList(), r)),
                  a()
              },
              error: function() {
                  a()
              }
          })
      }
  }
}
複製代碼

初步靜態分析是這樣,咱們調試一下,看看具體的值 函數

看看用來計算 _signature的值,是 urlparams,看來 ascp在這以前已經計算好值了,推測是 this._setParams,咱們在那裏打個斷點試試

2. 分析as、cp加密算法

咱們跳到this._setParams這個方法,能夠看到確實是這個方法產生了ascp,並且若是t的值是refresh,就說明是刷新,須要從min_behot_time這個參數開始請求,若是不是,那就繼續根據max_behot_time繼續往下請求。 ui

咱們繼續往下跳
能夠看到這裏是具體的加密方法,以後的話就是扣具體的 js代碼,算法比較簡單,你們能夠繼續往下扣
相似這樣

3. 分析_signature加密算法

在今年年初分析的時候,_signature的加密算法是能夠從這裏得出,也就是Tac.sign的算法

算法相似於

Function(function(t) {
    return '�e(e,a,r){�(b[e]||(b[e]=t("x,y","�x "+e+" y"�)(r,a)}�a(e,a,r){�(k[r]||(k[r]=t("x,y","�new x[y]("+Array(r+1).join(",x[�y]")�(1)+")"�)(e,a)}�r(e,a,r){�n,t,s={},b=s.d=r?r.d+1:0;for(s["$"+b]=s,t=0;t<b;t�)s[n="$"+t]=r[n];for(t=0,b=s�=a�;t<b;t�)s[t]=a[t];�c(e,0,s)}�c(t,b,k){�u(e){v[x�]=e}�f�{�g=�,t�ing(b�g)}�l�{try{y=c(t,b,k)}catch(e){h=e,y=l}}for(�h,y,d,g,v=[],x=0;;)switch(g=�){case 1:u(!�)�4:�f��5:u(�(e){�a=0,r=e�;���{�c=a<r;�c&&u(e[a�]),c}}(���6:y=�,u(�(y��8:if(g=�,l��g,g=�,y===c)b+=g;else if(y!==l)�y�9:�c�10:u(s(���11:y=�,u(�+y)�12:for(y=f�,d=[],g=0;g<y�;g�)d[g]=y.charCodeAt(g)^g+y�;u(String.fromCharCode.apply(null,d��13:y=�,h=delete �[y]�14:���59:u((g=�)?(y=x,v.slice(x-=g,y�:[])�61:u(�[�])�62:g=�,k[0]=65599*k[0]+k[1].charCodeAt(g)>>>0�65:h=�,y=�,�[y]=h�66:u(e(t[b�],�,���67:y=�,d=�,u((g=�).x===c?r(g.y,y,k):g.apply(d,y��68:u(e((g=t[b�])<"<"?(b--,f�):g+g,�,���70:u(!1)�71:�n�72:�+f��73:u(parseInt(f�,36��75:if(�){b��case 74:g=�<<16>>16�g�76:u(k[�])�77:y=�,u(�[y])�78:g=�,u(a(v,x-=g+1,g��79:g=�,u(k["$"+g])�81:h=�,�[f�]=h�82:u(�[f�])�83:h=�,k[�]=h�84:�!0�85:�void 0�86:u(v[x-1])�88:h=�,y=�,�h,�y�89:u(��{�e�{�r(e.y,arguments,k)}�e.y=f�,e.x=c,e}�)�90:�null�91:�h�93:h=��0:��;default:u((g<<16>>16)-16)}}�n=this,t=n.Function,s=Object.keys||�(e){�a={},r=0;for(�c in e)a[r�]=c;�a�=r,a},b={},k={};�r'.replace(/[�-�]/g, function(e) {
        return t[15 & e.charCodeAt(0)]
    })
}("v[x++]=�v[--x]�t.charCodeAt(b++)-32�function �return �))�++�.substr�var �.length�()�,b+=�;break;case �;break}".split("�")))()('gr$Daten Иb/s!l y͒yĹg,(lfi~ah`{mv,-n|jqewVxp{rvmmx,&eff�kx[!cs"l".Pq%widthl"@q&heightl"vr*getContextx$"2d[!cs#l#,*;?|u.|uc{uq$fontl#vr(fillTextx$$龘ฑภ경2<[#c}l#2q*shadowBlurl#1q-shadowOffsetXl#$$limeq+shadowColorl#vr#arcx88802[%c}l#vr&strokex[ c}l"v,)}eOmyoZB]mx[ cs!0s$l$Pb<k7l l!r&lengthb%^l$1+s$j�l s#i$1ek1s$gr#tack4)zgr#tac$! +0o![#cj?o ]!l$b%s"o ]!l"l$b*b^0d#>>>s!0s%yA0s"l"l!r&lengthb<k+l"^l"1+s"j�l s&l&z0l!$ +["cs\'(0l#i\'1ps9wxb&s() &{s)/s(gr&Stringr,fromCharCodes)0s*yWl ._b&s o!])l l Jb<k$.aj;l .Tb<k$.gj/l .^b<k&i"-4j!�+& s+yPo!]+s!l!l Hd>&l!l Bd>&+l!l <d>&+l!l 6d>&+l!l &+ s,y=o!o!]/q"13o!l q"10o!],l 2d>& s.{s-yMo!o!]0q"13o!]*Ld<l 4d#>>>b|s!o!l q"10o!],l!& s/yIo!o!].q"13o!],o!]*Jd<l 6d#>>>b|&o!]+l &+ s0l-l!&l-l!i\'1z141z4b/@d<l"b|&+l-l(l!b^&+l-l&zl\'g,)gk}ejo{�cm,)|yn~Lij~em["cl$b%@d<l&zl\'l $ +["cl$b%b|&+l-l%8d<@b|l!b^&+ q$sign ', [TAC = {}]);
複製代碼

咱們看看如今它的算法有沒有改變,咱們打斷點再跳到_getSignature這個方法看看

能夠看出,主要加密部分是 g.sign部分,看看 g.sign到底是什麼算法
是個 jsanonymous算法,展開算法看看
這段代碼使用了咱們以前說的 控制流平坦化,把代碼邏輯變成統一的入口管理,咱們不細摳這段 js, 咱們換個思路來查看這個方法,以前咱們定位的是 g.sign,此次咱們換換思路,定位 g對象試試,咱們在剛纔的 g.sign處往上找,看看有沒有 g對象
找到 g對象了,咱們往下跳,到了這個位置
下面這段代碼中,涉及函數調用的是 e[a].call,咱們能夠看看 e[a]是什麼東西?

function(e) {
                function t(a) {
                    if (o[a])
                        return o[a].exports;
                    var r = o[a] = {
                        exports: {},
                        id: a,
                        loaded: !1
                    };
                    return e[a].call(r.exports, r, r.exports, t),
                    r.loaded = !0,
                    r.exports
                }
複製代碼

能夠看到 e[a]是個 anonymous方法,和咱們以前看到的 sign加密方法很像,咱們進去看看
看到這段熟悉的代碼,內心一熱,算法仍是沒變,和以前的同樣,那咱們就能夠直接拿來用了,照着以前那個 t方法改寫下

var o ={};
var e = function(a) {
  var r = {
      exports: {},
      id: a,
      loaded: !1
  };
  return x.call(r.exports, r, r.exports, e),
      r.loaded = !0,
      r.exports
};

var x = function(t, e) {
  Function(function(t) {
      return 'e(e,a,r){(b[e]||(b[e]=t("x,y","x "+e+" y")(r,a)}a(e,a,r){(k[r]||(k[r]=t("x,y","new x[y]("+Array(r+1).join(",x[y]")(1)+")")(e,a)}r(e,a,r){n,t,s={},b=s.d=r?r.d+1:0;for(s["$"+b]=s,t=0;t<b;t)s[n="$"+t]=r[n];for(t=0,b=s=a;t<b;t)s[t]=a[t];c(e,0,s)}c(t,b,k){u(e){v[x]=e}f{g=,ting(bg)}l{try{y=c(t,b,k)}catch(e){h=e,y=l}}for(h,y,d,g,v=[],x=0;;)switch(g=){case 1:u(!)4:f5:u((e){a=0,r=e;{c=a<r;c&&u(e[a]),c}}(6:y=,u((y8:if(g=,lg,g=,y===c)b+=g;else if(y!==l)y9:c10:u(s(11:y=,u(+y)12:for(y=f,d=[],g=0;g<y;g)d[g]=y.charCodeAt(g)^g+y;u(String.fromCharCode.apply(null,d13:y=,h=delete [y]14:59:u((g=)?(y=x,v.slice(x-=g,y:[])61:u([])62:g=,k[0]=65599*k[0]+k[1].charCodeAt(g)>>>065:h=,y=,[y]=h66:u(e(t[b],,67:y=,d=,u((g=).x===c?r(g.y,y,k):g.apply(d,y68:u(e((g=t[b])<"<"?(b--,f):g+g,,70:u(!1)71:n72:+f73:u(parseInt(f,3675:if(){bcase 74:g=<<16>>16g76:u(k[])77:y=,u([y])78:g=,u(a(v,x-=g+1,g79:g=,u(k["$"+g])81:h=,[f]=h82:u([f])83:h=,k[]=h84:!085:void 086:u(v[x-1])88:h=,y=,h,y89:u({e{r(e.y,arguments,k)}e.y=f,e.x=c,e})90:null91:h93:h=0:;default:u((g<<16>>16)-16)}}n=this,t=n.Function,s=Object.keys||(e){a={},r=0;for(c in e)a[r]=c;a=r,a},b={},k={};r'.replace(/[-]/g, function(e) {
          return t[15 & e.charCodeAt(0)]
      })
  }("v[x++]=v[--x]t.charCodeAt(b++)-32function return ))++.substrvar .length(),b+=;break;case ;break}".split("")))()('gr$Daten Иb/s!l y͒yĹg,(lfi~ah`{mv,-n|jqewVxp{rvmmx,&effkx[!cs"l".Pq%widthl"@q&heightl"vr*getContextx$"2d[!cs#l#,*;?|u.|uc{uq$fontl#vr(fillTextx$$龘ฑภ경2<[#c}l#2q*shadowBlurl#1q-shadowOffsetXl#$$limeq+shadowColorl#vr#arcx88802[%c}l#vr&strokex[ c}l"v,)}eOmyoZB]mx[ cs!0s$l$Pb<k7l l!r&lengthb%^l$1+s$jl s#i$1ek1s$gr#tack4)zgr#tac$! +0o![#cj?o ]!l$b%s"o ]!l"l$b*b^0d#>>>s!0s%yA0s"l"l!r&lengthb<k+l"^l"1+s"jl s&l&z0l!$ +["cs\'(0l#i\'1ps9wxb&s() &{s)/s(gr&Stringr,fromCharCodes)0s*yWl ._b&s o!])l l Jb<k$.aj;l .Tb<k$.gj/l .^b<k&i"-4j!+& s+yPo!]+s!l!l Hd>&l!l Bd>&+l!l <d>&+l!l 6d>&+l!l &+ s,y=o!o!]/q"13o!l q"10o!],l 2d>& s.{s-yMo!o!]0q"13o!]*Ld<l 4d#>>>b|s!o!l q"10o!],l!& s/yIo!o!].q"13o!],o!]*Jd<l 6d#>>>b|&o!]+l &+ s0l-l!&l-l!i\'1z141z4b/@d<l"b|&+l-l(l!b^&+l-l&zl\'g,)gk}ejo{cm,)|yn~Lij~em["cl$b%@d<l&zl\'l $ +["cl$b%b|&+l-l%8d<@b|l!b^&+ q$sign ', [Object.defineProperty(e, "__esModule", {
      value: !0
  })])
};

var get_signature = function(i){
    var a = 299;
    var tac = e(a);
    return tac.sign(i)
};


console.log(get_signature(0));
複製代碼

咱們運行以後會發現,報錯以下

缺乏 userAgent的屬性,那咱們全局定義一個

global.navigator = {
  userAgent: 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36',
}
複製代碼

獲得了正確的結果

4. 總結思路

綜上所分析的思路,咱們能夠畫出下面的ascp_signature參數獲取流程

代碼實戰

有了上面這個分析流程,咱們就能夠開始Coding了,首先是ascp的加密方法

而後是 _signature的加密方法, ua參數是咱們傳入的
最後使用 python彙總一下
結合採集場景

複習要點

從這個複習的案例咱們能夠總結下思路:

  1. 當加密參數有多個的時候,觀察哪一個參數是不常見的,代碼Match儘可能少的去全局搜索、分析。
  2. 當加密方法混淆程度高,迭代深的時候,換個方法去尋找最後的加密方法,好比剛纔的g.sign變成去尋找g參數。
  3. 運行js加密方法的時候,真理就是缺啥補啥,如同咱們剛纔運行方法的時候缺乏了ua參數,咱們就定義個全局的ua參數,或者咱們缺乏某個對象的時候,補充就行了。

做者相關

號主介紹

多年反爬蟲破解經驗,AKA「逆向小學生」,沉迷數據分析和黑客增加不能自拔,虛名有CSDN博客專家和華爲雲享專家。

私藏資料

嘔心瀝血從浩瀚的資料中整理了獨家的「私藏資料」,公衆號內回覆「私藏資料」便可領取爬蟲高級逆向教學視頻以及多平臺的中文數據集

小學生都推薦的好文

2019年底逆向複習系列之百度指數Data加密逆向破解

2019年底逆向複習系列之努比亞Cookie生成逆向分析

2019年底逆向複習系列之淘寶M站Sign參數逆向分析

相關文章
相關標籤/搜索