今天,小編爲你們帶來的教程是:如何在前嗅ForeSpider中抽取數據。主要內容包括:如何選擇表單,如何採集列表/表格數據兩大部分。具體內容以下:html
一,如何選擇表單數據庫
在ForeSpider爬蟲中,表單是能夠複用的表結構,建好的表單能夠重複用於多個任務。服務器
【數據表選擇頁】ide
1.選擇表單server
方法一:經過下拉菜單,或填寫表單ID,選擇已有表單。htm
方法二:快速建表,點擊建立表單,進入快速建表頁面,新建表單。(>>詳見快速建表)blog
方法三:自由建表,點擊「採集配置」-「數據建表」,點擊採「採集表單」後面的。(>>詳見自由建表)教程
【數據建表頁】索引
2.數據存儲方式文檔
指的是數據採集時,在數據庫裏的存儲方式。
①插入:默認爲插入。如遇到數據庫中已存在的重複數據,則再也不插入。
②僅更新:如遇到數據庫中已存在的重複數據,則用最新採集的數據覆蓋掉。
③追加:如字段的屬性是運算字段,則能夠進行字段運算。
④插入並更新:沒有重複的記錄則插入,有重複記錄則更新。
二,如何採集列表/表格數據
識別列表用於存儲表格/列表的數據,將表格/列表的不一樣列對應存入不一樣字段,表格/列表的不一樣行分別存儲爲數據表的多條記錄。之前嗅官網Web服務器(http://www.forenose.com/pannel/prod/server_cen.html) 爲例。
1.建立表單
根據表格內容,建立一個存儲表格數據的表單。在選項卡「數據建表」中,建立一個表單。(>>自由建表)
【識別列表的表結構】
(1)主鍵
採集表格時,表格的一行做爲一條數據。因爲整個表格屬於同一個網頁文檔,而文檔主鍵只有一個,所以不能像採集其餘內容同樣,取值類型選擇「網頁主鍵」。
表格的主鍵的變量類型,根據表格的行數長度,選擇「Integer」或者「Long」。取值類型選擇「空」。字段屬性選擇「主鍵字段」和「自動字段」(選擇主鍵字段後,軟件會自動選擇「鍵值惟一」和「索引字段」。)
【主鍵字段的配置】
(2)其餘字段
其餘字段的變量類型選擇「string」,取值類型選擇「選區內所有文本」。(>>字段參數)
【其餘字段的配置】
2.建立數據抽取
爲數據抽取選擇表單
【選擇表單】
3.識別多值
點擊「默認數據抽取」節點,按Ctrl點擊任意某個單元格,按Shift再次點擊擴大區域範圍。
【定位表格】
點擊「識別多值」,選區擴大到整個表格。點擊「確認選區」。
【確認多值】
4.字段取值
主鍵字段不須要配置。存儲表格內容的字段須要一一取值。(方法一:標準定位/方法二:特徵定位)
點擊數據抽取的字段,爲其一一配置表格不一樣列的數據。點擊相應字段,按Ctrl點擊第一列的任意單元格,點擊「保存」。
【多值字段取值】