連接腳本是連接抽取中的腳本。配置了連接腳本,連接的抽取流程將被改變:
1.若是腳本未正確返回dom區域節點,則該連接抽取的規則將徹底由該腳本控制。
2.若是腳本返回了一個正確的dom區域節點,則此連接抽取以返回的區域節點爲基準,區域外的連接將被過濾掉。數據庫
一.可用全局對象(只讀)dom
EXTRACT: 當前採集引擎[ 對象類型: extractor ]
DATADB: 當前鏈接的數據庫[ 對象類型: dataBase ]
RESULT: 當前結果集對象[ 對象類型: result ]
URL: 當前採集的連接對象[ 對象類型: url ]
URLTEXT : 描述當前連接採集的全部狀態及屬性的對象[ 對象類型: urltext ]
DOC: 當前採集的文檔對象[ 對象類型: grabDoc ]
DOM: 當前採集文檔的dom對象[ 對象類型: dom ]
ITEM: 模板區域的dom樹節點(若是模板未選擇區域則爲dom樹的根節點)[ 對象類型: domItem ]
TMPL: 當前文檔模板對象[ 對象類型: tmplTmpl ]this
二.this對象url
當前連接抽取[tmplLink]對象。code
三.腳本返回值orm
若是要採集某個特徵區域內的連接,則必須返回該區域的dom節點( domItem對象)。 不然該連接抽取則徹底由腳本控制。
示例
採集第一個Form表單中的連接:對象
return DOM.FindName("form");
在連接模板須要的連接沒法用爬蟲過濾獲得,就要寫連接腳本。下面是每一個連接腳本必有的代碼:文檔
url u; u.title = ""; u.urlname = ""; u.tmplid = 3; u.entryid = CHANN.id; RESULT.AddLink(u);