字段處理腳本用於清洗字段的取值。點擊某個字段後,在字段處理的下拉菜單中選擇腳本處理後,須要配置的腳本。這一步是經過腳本進一步清洗獲取的數據。數據庫
一.可用全局對象(只讀)dom
EXTRACT: 當前採集引擎[ 對象類型: extractor ]this
DATADB: 當前鏈接的數據庫[ 對象類型: dataBase ]url
RESULT: 當前結果集對象[ 對象類型: result ] URL: 當前採集的連接對象[ 對象類型: url ] URLTEXT : 描述當前連接採集的全部狀態及屬性的對象[ 對象類型: urltext ]對象
DOC: 當前採集的文檔對象[ 對象類型: grabDoc ]文檔
DOM: 當前採集文檔的dom對象[ 對象類型: dom ]字符串
ITEM: 當前dom樹被取值節點[ 對象類型: domItem ]源碼
TMPL: 當前文檔模板對象[ 對象類型: tmplTmpl ]string
DATA: 當前數據抽取對象[ 對象類型: tmplData ]模板
REC: 當前記錄集對象[ 對象類型: record ]
VALUE: 當前字段獲取的字符串類型的值。[ 對象類型: string ]
二.this對象
當前數據字段抽取[ tmplVal ]對象
三.腳本返回值
必須返回處理後的的數據結果[返回類型: string]
四.示例
<div class="lumn_left01"><a>商品大類</a>><a><a>商品列表</a>><a>商品品牌</a>></div>
【網頁源碼】
如下腳本將取數據「商品大類」的右串:
return DOM.GetTextAll(DOM.FindClass("lumn_left01",div)).Right("商品大類");
取出的結果爲:>商品列表>商品品牌
註釋:
GetTextAll:取出其中全部的文本。
FindClass:經過標籤class屬性值查找標籤節點。
Right: 返回字符串右邊的字符串。
如下腳本將清除數據先後的空白符:
return VALUE.TrimAll();