前嗅ForeSpider教程：字段的取值與清洗

時間 2019-11-13

標籤 forespider 教程字段取值清洗简体版

原文原文鏈接

今天小編爲你們帶來的教程是：如何在前嗅ForeSpider中進行，字段的取值與清洗。主要內容包括：自動取值字段，取值的兩個方法，和字段清洗方式。具體內容以下：html

一，自動取值的字段包括哪些瀏覽器

當字段設置爲下列採集內容時，系統會自動爲字段賦值。ide

1.網頁地址：自動採集網頁的URL地址。htm

2.網頁標題：採集網頁的標題。即網頁<title>中的內容。對象

3.網頁內文字文本：採集整個頁面中全部可見的文字文本。blog

網頁內容：採集網頁所有文本，包含html標籤等，即整個頁面的源代碼。

5.網頁建立時間：文檔建立或網頁發佈的時間。教程

6.網頁更新時間：文檔或網頁更新的時間。圖片

7.網頁獲取時間：ForeSpider採集該網頁的時間。文檔

8.當前系統時間：數據採集入庫的時間。字符串

9.文檔數據大小：採集對象的質量大小[單位:字節]。

10.文檔名稱：採集對象的文件名，如***.html，***.doc。

11.文檔後綴：文檔的文件名後綴，如html、pdf等。

12.文檔視寬：文檔的寬[若是是圖片數據則爲圖片的寬]。

13.文檔視高：文檔的高[若是是圖片數據則爲圖片的高]。

14.文檔層級：自動獲取從入口頁噹噹前數據頁的跳轉層級數目。

15.頻道ID：採集當前頻道的ID。

16.頻道名稱：採集當前頻道的名稱。

二，取值方法

1.標準定位

（1）標準定位含義

經過在內置瀏覽器上，定位有所需數據的區域，爲字段取值。大多數狀況都選擇「標準定位」。

（2）定位方法

①選擇：按Ctrl點擊頁面上相應數據的區域。

②擴大選區：按Shift再次點擊頁面相應區域。

③確認選區：點擊「確認選區」按鈕，選區生效。

【標準定位】

2.特徵定位

（1）特徵定位含義

當所需數據在不一樣網頁的位置不固定，且數據先後具備特徵性文字時，用標準定位容易錯位，須要使用特徵定位。

舉例：對於字符串「做者：***」，採集做者名稱時，可用「做者：」做爲特徵來定位。

（2）特徵定位的操做方法

① 選擇：按Ctrl點擊頁面上所需數據的區域。

② 識別特徵：點擊「識別特徵」，出現紅框，再次點擊，紅框移動到特徵字符串時確認。

③ 點擊「確認選區」按鈕，選區生效。

（3）特徵定位的類型

特徵定位分爲四種方式：

① 局部關鍵詞

當頁面的數據前有特定的關鍵詞，而各個頁面的表格內容、各行次序、行數又各不相同時，採用標準定位的方式就會錯亂。能夠根據表頭特徵，採集表格後的數據。與全文關鍵詞的區別是，局部關鍵詞只在選定區域的附近採集。

② 全文關鍵詞

根據選定的特徵關鍵詞，在全頁面採集該特徵關鍵詞先後對應的數據，若是出現多個特徵關鍵詞，以第一個爲主。若是想採集多個的話，能夠設定多值。>>多值的配置方式

③ 大文本

選定大文本區域後，自動識別各頁面的大文本，相比標準定位更加精確。

④ 特殊標籤

採集頁面中只出現一次的特殊標籤，如標題的<h1>標籤等。

三，字段清洗方式

在採集數據以前，經過使用字段處理，軟件能夠自動以某種過濾方式，清洗該字段的字符串數據。經過系統自帶的或腳本的方式，能夠預先清洗不須要的字符串。

【字段處理】

字段清洗的方式以下：

字段處理腳本是字段處理中選擇「腳本處理」後，經過腳本進一步把須要的數據清洗乾淨。具體配置方法須要參考腳本文檔。v

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。