今天小編爲你們帶來的教程是:如何在前嗅ForeSpider中進行,字段的取值與清洗。主要內容包括:自動取值字段,取值的兩個方法,和字段清洗方式。具體內容以下:html
一,自動取值的字段包括哪些瀏覽器
當字段設置爲下列採集內容時,系統會自動爲字段賦值。
1.網頁地址:自動採集網頁的URL地址。
2.網頁標題:採集網頁的標題。即網頁<title>中的內容。
3.網頁內文字文本:採集整個頁面中全部可見的文字文本。
4.網頁內容:採集網頁所有文本,包含html標籤等,即整個頁面的源代碼。
5.網頁建立時間:文檔建立或網頁發佈的時間。
6.網頁更新時間:文檔或網頁更新的時間。
7.網頁獲取時間:ForeSpider採集該網頁的時間。
8.當前系統時間:數據採集入庫的時間。
9.文檔數據大小:採集對象的質量大小[單位:字節]。
10.文檔名稱:採集對象的文件名,如.html,.doc。
11.文檔後綴:文檔的文件名後綴,如html、pdf等。
12.文檔視寬:文檔的寬[若是是圖片數據則爲圖片的寬]。
13.文檔視高:文檔的高[若是是圖片數據則爲圖片的高]。
14.文檔層級:自動獲取從入口頁噹噹前數據頁的跳轉層級數目。
15.頻道ID:採集當前頻道的ID。
16.頻道名稱:採集當前頻道的名稱。ide
二,取值方法spa
1.標準定位
(1)標準定位含義
經過在內置瀏覽器上,定位有所需數據的區域,爲字段取值。大多數狀況都選擇「標準定位」。
(2)定位方法
①選擇:按Ctrl點擊頁面上相應數據的區域。
②擴大選區:按Shift再次點擊頁面相應區域。
③確認選區:點擊「確認選區」按鈕,選區生效。3d
標準定位htm
2.特徵定位
(1)特徵定位含義
當所需數據在不一樣網頁的位置不固定,且數據先後具備特徵性文字時,用標準定位容易錯位,須要使用特徵定位。
舉例:對於字符串「做者:*」,採集做者名稱時,可用「做者:」做爲特徵來定位。對象
(2)特徵定位的操做方法
① 選擇:按Ctrl點擊頁面上所需數據的區域。
② 識別特徵:點擊「識別特徵」,出現紅框,再次點擊,紅框移動到特徵字符串時確認。
③ 點擊「確認選區」按鈕,選區生效。blog
(3)特徵定位的類型
特徵定位分爲四種方式:
① 局部關鍵詞
當頁面的數據前有特定的關鍵詞,而各個頁面的表格內容、各行次序、行數又各不相同時,採用標準定位的方式就會錯亂。能夠根據表頭特徵,採集表格後的數據。與全文關鍵詞的區別是,局部關鍵詞只在選定區域的附近採集。
② 全文關鍵詞
根據選定的特徵關鍵詞,在全頁面採集該特徵關鍵詞先後對應的數據,若是出現多個特徵關鍵詞,以第一個爲主。若是想採集多個的話,能夠設定多值。>>查看多值的配置方式
③ 大文本
選定大文本區域後,自動識別各頁面的大文本,相比標準定位更加精確。
④ 特殊標籤
採集頁面中只出現一次的特殊標籤,如標題的<h1>標籤等。教程
三,字段清洗方式圖片
在採集數據以前,經過使用字段處理,軟件能夠自動以某種過濾方式,清洗該字段的字符串數據。經過系統自帶的或腳本的方式,能夠預先清洗不須要的字符串。
字段處理
字段清洗的方式以下:
字段處理腳本是字段處理中選擇「腳本處理」後,經過腳本進一步把須要的數據清洗乾淨。具體配置方法須要參考腳本文檔。