前嗅ForeSpider教程：字段的取值與清洗

時間 2020-01-04

標籤 forespider 教程字段取值清洗简体版

原文原文鏈接

今天小編爲你們帶來的教程是：如何在前嗅ForeSpider中進行，字段的取值與清洗。主要內容包括：自動取值字段，取值的兩個方法，和字段清洗方式。具體內容以下：html

一，自動取值的字段包括哪些瀏覽器

當字段設置爲下列採集內容時，系統會自動爲字段賦值。
1.網頁地址：自動採集網頁的URL地址。
2.網頁標題：採集網頁的標題。即網頁<title>中的內容。
3.網頁內文字文本：採集整個頁面中全部可見的文字文本。
4.網頁內容：採集網頁所有文本，包含html標籤等，即整個頁面的源代碼。
5.網頁建立時間：文檔建立或網頁發佈的時間。
6.網頁更新時間：文檔或網頁更新的時間。
7.網頁獲取時間：ForeSpider採集該網頁的時間。
8.當前系統時間：數據採集入庫的時間。
9.文檔數據大小：採集對象的質量大小[單位:字節]。
10.文檔名稱：採集對象的文件名，如.html，.doc。
11.文檔後綴：文檔的文件名後綴，如html、pdf等。
12.文檔視寬：文檔的寬[若是是圖片數據則爲圖片的寬]。
13.文檔視高：文檔的高[若是是圖片數據則爲圖片的高]。
14.文檔層級：自動獲取從入口頁噹噹前數據頁的跳轉層級數目。
15.頻道ID：採集當前頻道的ID。
16.頻道名稱：採集當前頻道的名稱。ide

二，取值方法spa

1.標準定位
（1）標準定位含義
經過在內置瀏覽器上，定位有所需數據的區域，爲字段取值。大多數狀況都選擇「標準定位」。
（2）定位方法
①選擇：按Ctrl點擊頁面上相應數據的區域。
②擴大選區：按Shift再次點擊頁面相應區域。
③確認選區：點擊「確認選區」按鈕，選區生效。3d

標準定位htm

2.特徵定位
（1）特徵定位含義
當所需數據在不一樣網頁的位置不固定，且數據先後具備特徵性文字時，用標準定位容易錯位，須要使用特徵定位。
舉例：對於字符串「做者：*」，採集做者名稱時，可用「做者：」做爲特徵來定位。對象

（2）特徵定位的操做方法
① 選擇：按Ctrl點擊頁面上所需數據的區域。
② 識別特徵：點擊「識別特徵」，出現紅框，再次點擊，紅框移動到特徵字符串時確認。
③ 點擊「確認選區」按鈕，選區生效。blog

（3）特徵定位的類型
特徵定位分爲四種方式：
① 局部關鍵詞
當頁面的數據前有特定的關鍵詞，而各個頁面的表格內容、各行次序、行數又各不相同時，採用標準定位的方式就會錯亂。能夠根據表頭特徵，採集表格後的數據。與全文關鍵詞的區別是，局部關鍵詞只在選定區域的附近採集。
② 全文關鍵詞
根據選定的特徵關鍵詞，在全頁面採集該特徵關鍵詞先後對應的數據，若是出現多個特徵關鍵詞，以第一個爲主。若是想採集多個的話，能夠設定多值。>>查看多值的配置方式
③ 大文本
選定大文本區域後，自動識別各頁面的大文本，相比標準定位更加精確。
④ 特殊標籤
採集頁面中只出現一次的特殊標籤，如標題的<h1>標籤等。教程

三，字段清洗方式圖片

在採集數據以前，經過使用字段處理，軟件能夠自動以某種過濾方式，清洗該字段的字符串數據。經過系統自帶的或腳本的方式，能夠預先清洗不須要的字符串。

字段處理