前嗅ForeSpider腳本教程-連接抽取:應用場景及連接在源碼的html標籤裏寫腳本

今天,小編給你們帶來的教程爲:前嗅ForeSpider腳本教程中,連接抽取的應用場景,以及連接在源碼的html標籤裏寫腳本的實戰教程。具體內容以下:html

一.應用場景dom

當須要手動添加連接時,可添加連接腳本。ide

在「連接腳本處」,可能用到的類爲extractor 、result、url、grabDoc、dom。網站

二.連接在源碼的html標籤裏url

連接地址可在源碼中查找到。在目標網頁右鍵,選擇「查看源代碼」,鍵盤點擊「ctrl+F」,查找目標連接所在位置。目標連接存在於標籤中。3d

1.連接須要循環htm

場景:好比翻頁等規律相同的一系列目標連接,存在於一個大的ul標籤或者div標籤裏。blog

示例:獲取CSDN首頁文章列表連接。教程

在該網頁右鍵選擇「查看源文件」,查找第一條連接的連接地址,定位目標數據位置。get

將該源碼粘貼到notepad++中,選擇語言爲html,搜索目標數據的所在位置「ul」標籤的id值。

由圖可知,列表頁文章連接位於每一個li中的a標籤的href中。

腳本實例:暫無。

2.連接不循環

場景:獲取更多連接,連接不像翻頁那頁具備自增性的規律。

示例:獲取該網站更多的招標公告信息。

獲取更多的招標公告信息,須要點擊「更多」按鈕。在該網頁右鍵選擇「查看源文件」,定位連接所在位置。

因<a>標籤名,和父級<div>的class屬性都在多處存在,所以須要再向上查找節點,直到id爲tab2-list的<div>。

腳本實例:

var div = DOM.FindId("tab2-list");//先查找div

var a = DOM.FindClass("more","a",div );//從上一行找到的div開始查找,class屬性爲more的a標籤。

url u;

u.urlname = "http://www.bgpc.gov.cn"+a.href; //拼接完整的連接地址

u.title = "更多"; //填寫title

u.entryId = CHANN.id;

u.tmplId = 2;

RESULT.AddLink(u);

相關文章
相關標籤/搜索