前嗅ForeSpider教程:字段的取值與清洗

今天小編爲你們帶來的教程是:如何在前嗅ForeSpider中進行,字段的取值與清洗。主要內容包括:自動取值字段,取值的兩個方法,和字段清洗方式。具體內容以下:html

一,自動取值的字段包括哪些瀏覽器

當字段設置爲下列採集內容時,系統會自動爲字段賦值。ide

1.網頁地址:自動採集網頁的URL地址。htm

2.網頁標題:採集網頁的標題。即網頁<title>中的內容。對象

3.網頁內文字文本:採集整個頁面中全部可見的文字文本。blog

  1. 網頁內容:採集網頁所有文本,包含html標籤等,即整個頁面的源代碼。

5.網頁建立時間:文檔建立或網頁發佈的時間。教程

6.網頁更新時間:文檔或網頁更新的時間。圖片

7.網頁獲取時間:ForeSpider採集該網頁的時間。文檔

8.當前系統時間:數據採集入庫的時間。字符串

9.文檔數據大小:採集對象的質量大小[單位:字節]。

10.文檔名稱:採集對象的文件名,如***.html,***.doc。

11.文檔後綴:文檔的文件名後綴,如html、pdf等。

12.文檔視寬:文檔的寬[若是是圖片數據則爲圖片的寬]。

13.文檔視高:文檔的高[若是是圖片數據則爲圖片的高]。

14.文檔層級:自動獲取從入口頁噹噹前數據頁的跳轉層級數目。

15.頻道ID:採集當前頻道的ID。

16.頻道名稱:採集當前頻道的名稱。

二,取值方法

1.標準定位

(1)標準定位含義

經過在內置瀏覽器上,定位有所需數據的區域,爲字段取值。大多數狀況都選擇「標準定位」。

(2)定位方法

①選擇:按Ctrl點擊頁面上相應數據的區域。

②擴大選區:按Shift再次點擊頁面相應區域。

③確認選區:點擊「確認選區」按鈕,選區生效。

【標準定位】

2.特徵定位

(1)特徵定位含義

當所需數據在不一樣網頁的位置不固定,且數據先後具備特徵性文字時,用標準定位容易錯位,須要使用特徵定位。

舉例:對於字符串「做者:***」,採集做者名稱時,可用「做者:」做爲特徵來定位。

(2)特徵定位的操做方法

① 選擇:按Ctrl點擊頁面上所需數據的區域。

② 識別特徵:點擊「識別特徵」,出現紅框,再次點擊,紅框移動到特徵字符串時確認。

③ 點擊「確認選區」按鈕,選區生效。

(3)特徵定位的類型

特徵定位分爲四種方式:

① 局部關鍵詞

當頁面的數據前有特定的關鍵詞,而各個頁面的表格內容、各行次序、行數又各不相同時,採用標準定位的方式就會錯亂。能夠根據表頭特徵,採集表格後的數據。與全文關鍵詞的區別是,局部關鍵詞只在選定區域的附近採集。

② 全文關鍵詞

根據選定的特徵關鍵詞,在全頁面採集該特徵關鍵詞先後對應的數據,若是出現多個特徵關鍵詞,以第一個爲主。若是想採集多個的話,能夠設定多值。>>多值的配置方式

③ 大文本

選定大文本區域後,自動識別各頁面的大文本,相比標準定位更加精確。

④ 特殊標籤

採集頁面中只出現一次的特殊標籤,如標題的<h1>標籤等。

三,字段清洗方式

在採集數據以前,經過使用字段處理,軟件能夠自動以某種過濾方式,清洗該字段的字符串數據。經過系統自帶的或腳本的方式,能夠預先清洗不須要的字符串。

【字段處理】

字段清洗的方式以下:

字段處理腳本是字段處理中選擇「腳本處理」後,經過腳本進一步把須要的數據清洗乾淨。具體配置方法須要參考腳本文檔。v

相關文章
相關標籤/搜索