前嗅ForeSpider腳本教程-連接抽取：應用場景及連接在源碼的html標籤裏寫腳本

時間 2019-11-11

標籤 forespider 腳本教程連接抽取應用場景源碼 html 標籤欄目 HTML 简体版

原文原文鏈接

今天，小編給你們帶來的教程爲：前嗅ForeSpider腳本教程中，連接抽取的應用場景，以及連接在源碼的html標籤裏寫腳本的實戰教程。具體內容以下：html

一.應用場景dom

當須要手動添加連接時，可添加連接腳本。ide

在「連接腳本處」，可能用到的類爲extractor 、result、url、grabDoc、dom。網站

二.連接在源碼的html標籤裏url

連接地址可在源碼中查找到。在目標網頁右鍵，選擇「查看源代碼」，鍵盤點擊「ctrl+F」，查找目標連接所在位置。目標連接存在於標籤中。3d

1.連接須要循環htm

場景：好比翻頁等規律相同的一系列目標連接，存在於一個大的ul標籤或者div標籤裏。blog

示例：獲取CSDN首頁文章列表連接。教程

在該網頁右鍵選擇「查看源文件」，查找第一條連接的連接地址，定位目標數據位置。get

將該源碼粘貼到notepad++中，選擇語言爲html，搜索目標數據的所在位置「ul」標籤的id值。

由圖可知，列表頁文章連接位於每一個li中的a標籤的href中。

腳本實例：暫無。

2.連接不循環

場景：獲取更多連接，連接不像翻頁那頁具備自增性的規律。

示例：獲取該網站更多的招標公告信息。

獲取更多的招標公告信息，須要點擊「更多」按鈕。在該網頁右鍵選擇「查看源文件」，定位連接所在位置。

因<a>標籤名，和父級<div>的class屬性都在多處存在，所以須要再向上查找節點，直到id爲tab2-list的<div>。

腳本實例：

var div = DOM.FindId("tab2-list");//先查找div

var a = DOM.FindClass("more","a",div );//從上一行找到的div開始查找，class屬性爲more的a標籤。

url u;

u.urlname = "http://www.bgpc.gov.cn"+a.href; //拼接完整的連接地址

u.title = "更多"; //填寫title

u.entryId = CHANN.id;

u.tmplId = 2;

RESULT.AddLink(u);

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。