前嗅ForeSpider教程：建立模板

時間 2019-11-09

標籤 forespider 教程建立模板简体版

原文原文鏈接

今天，小編爲你們帶來的教程是：如何在前嗅ForeSpider中建立模板。主要內容有：模板的概念，模板的配置方式，模板的高級選項，具體內容以下：瀏覽器

一，模板的概念ide

模板列表的層級至關於網頁跳轉的層級。模板一相似於網站首頁，每一個模板表明了同一層級的頁面，經過適當的配置，能夠採集全站數據。網站

正如網站是經過連接之間的跳轉，來實現網站各層級頁面的鏈接，ForeSpider也是經過模板中的連接抽取，來實現模板之間的關聯。經過抽取網頁中的所有連接，再進行精準過濾，就能夠既全面又精確的獲取所需的所有數據。編碼

正如網站經過正文/數據頁展現數據，ForeSpider也是經過模板中的數據抽取，來獲取所需數據。url

二，模板的配置方式xml

1.模板的建立blog

模板的建立，有以下三種狀況：教程

①新建任務後：建立新的任務以後，選擇頁面須要抽取的內容，點擊完成後，軟件自動建立對應抽取內容的模板。文檔

②自動建立後續模板：點擊配置嚮導上方的「下一步」，會自動建立模板。字符編碼

③手動建立模板：點擊模板列表上方的添加按鈕，建立模板。

2.抽取所需內容

根據內置瀏覽器顯示的頁面內容，選擇本頁面須要抽取的內容。

【選擇頁面抽取內容】

①抽取連接：須要抽取頁面上的連接時，選擇抽取連接以及具體的連接類型，會創建對應的連接抽取。（方式一：智能過濾/方式二：定位過濾/方式三：地址/標題過濾）

②抽取數據：須要抽取頁面上的數據時，選擇抽取數據，會創建對應的數據抽取。（>>如何選擇表單）

例如：

須要採集新聞的正文數據，當前頁面是新聞首頁，聚集了新聞的連接，正文數據是經過點擊新聞連接進入的，因此本頁面須要抽取新聞連接。

軟件預置了一些常見的連接頁面場景，此時勾選連接列表，軟件會自動創建一個連接抽取。

3.如何填寫示例地址

（1）模板一的示例地址，自動默認爲該任務的採集地址。

（2）其餘模板的示例地址，自動默認爲上一級模板抽取到的某個連接地址。

（3）若是默認的示例地址不符合需求，能夠手動修改示例地址，方法以下：

①採集入口地址（模板一）的選擇

通常選擇目標網站的入口地址，好比首頁。

②示例地址的選擇

大多數狀況下，採集地址只填寫一個url地址。若是連接的頁面結構和層級結構是一致的，可以套用同一套採集模板進行採集，可填寫多個採集地址，中間用回車換行分隔。若是不一致，須要建立新的採集任務。

例1：採集整個淘寶網所有商品的信息，淘寶網首頁就是入口地址。

例2：只採集「女裝」類別的商品信息，「女裝」首頁就是入口地址。

例3：只採集某商品的評論信息，該商品的連接地址就是入口地址。

三，模板的高級選項

1.字符編碼

默認自動識別。若是該頁面未能自動識別發生亂碼，須要自行選擇字符編碼。能夠選擇GBK或UTF-8。

2.文檔類型

默認自動識別。能夠選擇採集xml文檔。

網頁類型

適用於一個模板配置大批量網站的狀況（可導入上萬個採集地址），選擇類型後，能夠自動過濾不屬於該類型的網頁，從而達到快速配置的目的。

網頁類型包括：所有類型、導航頁、列表頁、（文本）內容頁、詳情頁、附件、未知頁。

主題過濾

自動識別網頁的語義，並採集屬於某些類別的數據，過濾掉不屬於某些類別的數據。（針對自動分類器使用，若有需求請聯繫咱們定製。）

未匹配處理模板適用於一個模板配置大批量網站的狀況，當有頁面不符合匹配的類型被過濾掉後，能夠在此選擇一個針對未匹配頁面的處理模板，進入其餘處理流程。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。