前嗅ForeSpider腳本教程:字段處理腳本

字段處理腳本用於清洗字段的取值。點擊某個字段後,在字段處理的下拉菜單中選擇腳本處理後,須要配置的腳本。這一步是經過腳本進一步清洗獲取的數據。數據庫

一.可用全局對象(只讀)dom

EXTRACT: 當前採集引擎[ 對象類型: extractor ]this

DATADB: 當前鏈接的數據庫[ 對象類型: dataBase ]url

RESULT: 當前結果集對象[ 對象類型: result ] URL: 當前採集的連接對象[ 對象類型: url ] URLTEXT : 描述當前連接採集的全部狀態及屬性的對象[ 對象類型: urltext ]對象

DOC: 當前採集的文檔對象[ 對象類型: grabDoc ]文檔

DOM: 當前採集文檔的dom對象[ 對象類型: dom ]字符串

ITEM: 當前dom樹被取值節點[ 對象類型: domItem ]源碼

TMPL: 當前文檔模板對象[ 對象類型: tmplTmpl ]string

DATA: 當前數據抽取對象[ 對象類型: tmplData ]模板

REC: 當前記錄集對象[ 對象類型: record ]

VALUE: 當前字段獲取的字符串類型的值。[ 對象類型: string ]

二.this對象

當前數據字段抽取[ tmplVal ]對象

三.腳本返回值

必須返回處理後的的數據結果[返回類型: string]

四.示例

<div class="lumn_left01"><a>商品大類</a>><a><a>商品列表</a>><a>商品品牌</a>></div>

【網頁源碼】

如下腳本將取數據「商品大類」的右串:

return DOM.GetTextAll(DOM.FindClass("lumn_left01",div)).Right("商品大類");

取出的結果爲:>商品列表>商品品牌

註釋:

GetTextAll:取出其中全部的文本。

FindClass:經過標籤class屬性值查找標籤節點。

Right: 返回字符串右邊的字符串。

如下腳本將清除數據先後的空白符:

return VALUE.TrimAll();

相關文章
相關標籤/搜索