今天,小編給你們帶來的教程爲:前嗅ForeSpider腳本教程中,連接抽取的應用場景,以及連接在源碼的html標籤裏寫腳本的實戰教程。具體內容以下:html
一.應用場景dom
當須要手動添加連接時,可添加連接腳本。ide
在「連接腳本處」,可能用到的類爲extractor 、result、url、grabDoc、dom。網站
二.連接在源碼的html標籤裏url
連接地址可在源碼中查找到。在目標網頁右鍵,選擇「查看源代碼」,鍵盤點擊「ctrl+F」,查找目標連接所在位置。目標連接存在於標籤中。3d
1.連接須要循環htm
場景:好比翻頁等規律相同的一系列目標連接,存在於一個大的ul標籤或者div標籤裏。blog
示例:獲取CSDN首頁文章列表連接。教程
在該網頁右鍵選擇「查看源文件」,查找第一條連接的連接地址,定位目標數據位置。get
將該源碼粘貼到notepad++中,選擇語言爲html,搜索目標數據的所在位置「ul」標籤的id值。
由圖可知,列表頁文章連接位於每一個li中的a標籤的href中。
腳本實例:暫無。
2.連接不循環
場景:獲取更多連接,連接不像翻頁那頁具備自增性的規律。
示例:獲取該網站更多的招標公告信息。
獲取更多的招標公告信息,須要點擊「更多」按鈕。在該網頁右鍵選擇「查看源文件」,定位連接所在位置。
因<a>標籤名,和父級<div>的class屬性都在多處存在,所以須要再向上查找節點,直到id爲tab2-list的<div>。
腳本實例:
var div = DOM.FindId("tab2-list");//先查找div
var a = DOM.FindClass("more","a",div );//從上一行找到的div開始查找,class屬性爲more的a標籤。
url u;
u.urlname = "http://www.bgpc.gov.cn"+a.href; //拼接完整的連接地址
u.title = "更多"; //填寫title
u.entryId = CHANN.id;
u.tmplId = 2;
RESULT.AddLink(u);