連接過濾腳本是地址和標題過濾中的腳本, 過濾類型必須選擇腳本過濾時過濾腳本才能生效,過濾腳本用於處理複雜的連接或標題過濾需求。數據庫
一.可用全局對象(只讀)dom
EXTRACT: 當前採集引擎[ 對象類型: extractor ]this
DATADB: 當前鏈接的數據庫[ 對象類型: dataBase ]url
RESULT: 當前結果集對象[ 對象類型: result ]對象
URL: 當前採集的連接對象[ 對象類型: url ]文檔
URLTEXT : 描述當前連接採集的全部狀態及屬性的對象[ 對象類型: urltext ]字符串
DOC: 當前採集的文檔對象[ 對象類型: grabDoc ]string
DOM: 當前採集文檔的dom對象[ 對象類型: dom ]模板
ITEM: 當前連接dom樹的href標籤節點[ 對象類型: domItem ]數據
TMPL: 當前文檔模板對象[ 對象類型: tmplTmpl ]
LINK:當前連接抽取對象[ 對象類型: tmplLink ]
VALUE:當前被過濾的字符串[ 對象類型: string ]
二.this對象
當前連接過濾[tmplFilter]對象。
三.腳本返回值
返回非0保留,不然過濾。
示例:
1.如下腳本過濾空白連接:
if(VALUE)
return true;
else return false;
2.【標題過濾】如下腳本過濾標題的長度小於5個字符的連接:
if(VALUE.length>=5)
return true;
else return false;