前嗅ForeSpider腳本教程:連接過濾腳本

連接過濾腳本是地址和標題過濾中的腳本, 過濾類型必須選擇腳本過濾時過濾腳本才能生效,過濾腳本用於處理複雜的連接或標題過濾需求。數據庫

一.可用全局對象(只讀)dom

EXTRACT: 當前採集引擎[ 對象類型: extractor ]this

DATADB: 當前鏈接的數據庫[ 對象類型: dataBase ]url

RESULT: 當前結果集對象[ 對象類型: result ]對象

URL: 當前採集的連接對象[ 對象類型: url ]文檔

URLTEXT : 描述當前連接採集的全部狀態及屬性的對象[ 對象類型: urltext ]字符串

DOC: 當前採集的文檔對象[ 對象類型: grabDoc ]string

DOM: 當前採集文檔的dom對象[ 對象類型: dom ]模板

ITEM: 當前連接dom樹的href標籤節點[ 對象類型: domItem ]數據

TMPL: 當前文檔模板對象[ 對象類型: tmplTmpl ]

LINK:當前連接抽取對象[ 對象類型: tmplLink ]

VALUE:當前被過濾的字符串[ 對象類型: string ]

二.this對象

當前連接過濾[tmplFilter]對象。

三.腳本返回值

返回非0保留,不然過濾。

示例:

1.如下腳本過濾空白連接:

if(VALUE)

return true;

else return false;

2.【標題過濾】如下腳本過濾標題的長度小於5個字符的連接:

if(VALUE.length>=5)

return true;

else return false;

相關文章
相關標籤/搜索