前嗅ForeSpider教程:抽取數據

今天,小編爲你們帶來的教程是:如何在前嗅ForeSpider中抽取數據。主要內容包括:如何選擇表單,如何採集列表/表格數據兩大部分。具體內容以下:html

一,如何選擇表單數據庫

在ForeSpider爬蟲中,表單是能夠複用的表結構,建好的表單能夠重複用於多個任務。服務器

【數據表選擇頁】ide

1.選擇表單server

方法一:經過下拉菜單,或填寫表單ID,選擇已有表單。htm

方法二:快速建表,點擊建立表單,進入快速建表頁面,新建表單。(>>詳見快速建表)blog

方法三:自由建表,點擊「採集配置」-「數據建表」,點擊採「採集表單」後面的。(>>詳見自由建表)教程

【數據建表頁】索引

2.數據存儲方式文檔

指的是數據採集時,在數據庫裏的存儲方式。

①插入:默認爲插入。如遇到數據庫中已存在的重複數據,則再也不插入。

②僅更新:如遇到數據庫中已存在的重複數據,則用最新採集的數據覆蓋掉。

③追加:如字段的屬性是運算字段,則能夠進行字段運算。

④插入並更新:沒有重複的記錄則插入,有重複記錄則更新。

二,如何採集列表/表格數據

識別列表用於存儲表格/列表的數據,將表格/列表的不一樣列對應存入不一樣字段,表格/列表的不一樣行分別存儲爲數據表的多條記錄。之前嗅官網Web服務器(http://www.forenose.com/pannel/prod/server_cen.html) 爲例。

1.建立表單

根據表格內容,建立一個存儲表格數據的表單。在選項卡「數據建表」中,建立一個表單。(>>自由建表)

【識別列表的表結構】

(1)主鍵

採集表格時,表格的一行做爲一條數據。因爲整個表格屬於同一個網頁文檔,而文檔主鍵只有一個,所以不能像採集其餘內容同樣,取值類型選擇「網頁主鍵」。

表格的主鍵的變量類型,根據表格的行數長度,選擇「Integer」或者「Long」。取值類型選擇「空」。字段屬性選擇「主鍵字段」和「自動字段」(選擇主鍵字段後,軟件會自動選擇「鍵值惟一」和「索引字段」。)

【主鍵字段的配置】

(2)其餘字段

其餘字段的變量類型選擇「string」,取值類型選擇「選區內所有文本」。(>>字段參數)

【其餘字段的配置】

2.建立數據抽取

爲數據抽取選擇表單

【選擇表單】

3.識別多值

點擊「默認數據抽取」節點,按Ctrl點擊任意某個單元格,按Shift再次點擊擴大區域範圍。

【定位表格】

點擊「識別多值」,選區擴大到整個表格。點擊「確認選區」。

【確認多值】

4.字段取值

主鍵字段不須要配置。存儲表格內容的字段須要一一取值。(方法一:標準定位/方法二:特徵定位)

點擊數據抽取的字段,爲其一一配置表格不一樣列的數據。點擊相應字段,按Ctrl點擊第一列的任意單元格,點擊「保存」。

【多值字段取值】

相關文章
相關標籤/搜索