今天,小編爲你們帶來的教程是:如何在前嗅ForeSpider中建立模板。主要內容有:模板的概念,模板的配置方式,模板的高級選項,具體內容以下:瀏覽器
一,模板的概念ide
模板列表的層級至關於網頁跳轉的層級。模板一相似於網站首頁,每一個模板表明了同一層級的頁面,經過適當的配置,能夠採集全站數據。網站
正如網站是經過連接之間的跳轉,來實現網站各層級頁面的鏈接,ForeSpider也是經過模板中的連接抽取,來實現模板之間的關聯。經過抽取網頁中的所有連接,再進行精準過濾,就能夠既全面又精確的獲取所需的所有數據。編碼
正如網站經過正文/數據頁展現數據,ForeSpider也是經過模板中的數據抽取,來獲取所需數據。url
二,模板的配置方式xml
1.模板的建立blog
模板的建立,有以下三種狀況:教程
①新建任務後:建立新的任務以後,選擇頁面須要抽取的內容,點擊完成後,軟件自動建立對應抽取內容的模板。文檔
②自動建立後續模板:點擊配置嚮導上方的「下一步」,會自動建立模板。字符編碼
③手動建立模板:點擊模板列表上方的添加按鈕,建立模板。
2.抽取所需內容
根據內置瀏覽器顯示的頁面內容,選擇本頁面須要抽取的內容。
【選擇頁面抽取內容】
①抽取連接:須要抽取頁面上的連接時,選擇抽取連接以及具體的連接類型,會創建對應的連接抽取。(方式一:智能過濾/方式二:定位過濾/方式三:地址/標題過濾)
②抽取數據:須要抽取頁面上的數據時,選擇抽取數據,會創建對應的數據抽取。(>>如何選擇表單)
例如:
須要採集新聞的正文數據,當前頁面是新聞首頁,聚集了新聞的連接,正文數據是經過點擊新聞連接進入的,因此本頁面須要抽取新聞連接。
軟件預置了一些常見的連接頁面場景,此時勾選連接列表,軟件會自動創建一個連接抽取。
3.如何填寫示例地址
(1)模板一的示例地址,自動默認爲該任務的採集地址。
(2)其餘模板的示例地址,自動默認爲上一級模板抽取到的某個連接地址。
(3)若是默認的示例地址不符合需求,能夠手動修改示例地址,方法以下:
①採集入口地址(模板一)的選擇
通常選擇目標網站的入口地址,好比首頁。
②示例地址的選擇
大多數狀況下,採集地址只填寫一個url地址。若是連接的頁面結構和層級結構是一致的,可以套用同一套採集模板進行採集,可填寫多個採集地址,中間用回車換行分隔。若是不一致,須要建立新的採集任務。
例1:採集整個淘寶網所有商品的信息,淘寶網首頁就是入口地址。
例2:只採集「女裝」類別的商品信息,「女裝」首頁就是入口地址。
例3:只採集某商品的評論信息,該商品的連接地址就是入口地址。
三,模板的高級選項
1.字符編碼
默認自動識別。若是該頁面未能自動識別發生亂碼,須要自行選擇字符編碼。能夠選擇GBK或UTF-8。
2.文檔類型
默認自動識別。能夠選擇採集xml文檔。
適用於一個模板配置大批量網站的狀況(可導入上萬個採集地址),選擇類型後,能夠自動過濾不屬於該類型的網頁,從而達到快速配置的目的。
網頁類型包括:所有類型、導航頁、列表頁、(文本)內容頁、詳情頁、附件、未知頁。
自動識別網頁的語義,並採集屬於某些類別的數據,過濾掉不屬於某些類別的數據。(針對自動分類器使用,若有需求請聯繫咱們定製。)