前嗅ForeSpider腳本教程-連接抽取:連接在源碼的js變量裏寫腳本

今天,小編給你們帶來的教程爲:前嗅ForeSpider腳本教程-連接抽取中,連接在源碼的js變量裏寫腳本的實戰教程。具體內容以下:json

連接地址可在源碼中查找到。在目標網頁右鍵,選擇「查看源代碼」,鍵盤點擊「ctrl+F」,查找目標連接所在位置。目標連接存在於js變量中。數組

1.連接須要循環ide

場景:要抽取的一組連接都在源碼中出現,集中分佈。工具

示例:獲取今日頭條熱點新聞列表頁連接編碼

查看列表頁第一條連接,連接地址爲「https://www.toutiao.com/group/ 6637244114360336900/」,在該網頁,鼠標右鍵,選擇查看源代碼,「Ctrl+F」查找字符串「6637244114360336900」,定位其位置。url

觀察可知,中文字符都以」\u」開頭的字符串表示,顯示爲unicode編碼格式,由「站長工具」在線轉編碼以後便可展現中文。插件

此外連接地址分割符「/」加了轉義符「\」,不過軟件已經幫助咱們作了轉義處理,此處無需擔憂,直接賦值便可。code

將轉義後的字符串放置於JSON查看器中(以notepad++的插件「JSON Viewer」爲例),則可觀察到數據形式爲json。對象

腳本實例:blog

var str=DOM.GetSource().ToStr(); //獲取本連接地址網頁源碼

var jsonStr=DOM.UnEscape(str.Middle("data = ","]};")+"]}"); //截取數據所在字符串

jScript js;//定義JS變量

var obj=js.RunJson(jsonStr);//解析JSON串,並返回JSON對象

var ar=obj.real_time_news;//獲取目標數據所在數組

for(int i=0;i<ar.size;i++) //經過循環添加連接

{

url u;

u.title=ar[i].title;

u.urlname="https://www.toutiao.com"+ar[i].open_url;

u.entryid=CHANN.id;

u.tmplid=2;

RESULT.AddLink(u);

}

2.連接不循環

場景:要抽取少數連接,位置分散,如天貓分類頁(三級分類)。

實例:暫無。

相關文章
相關標籤/搜索