今天,小編爲你們介紹一下,前嗅ForeSpider的採集配置界面,具體內容以下:html
啓動ForeSpider採集軟件後,默認界面如圖所示。ROOT任務下有已經配置好的示例模板,點擊網站圖標便可進行採集預覽。可在任務列表選擇某一任務按照需求從新配置。數據庫
【採集配置界面】瀏覽器
1.任務列表ide
【任務列表】
任務對應着採集來源,一般一個採集來源對應着一個任務。如採集人民網時,人民網就是一個任務;經過百度採集全網信息時,百度就是一個任務;經過100個網址導航採集全球域名時,這100個網址導航就是一個任務。網站
2.任務屬性配置
用戶可根據採集需求與網站的設置選擇性的配置任務屬性。
任務屬性配置包括登陸網站、關鍵詞采集、瀏覽器採集、採集類型、禁用Cookie及Cookie設置6個部分。編碼
【任務屬性配置】
(1)登陸網站
若是採集源的數據須要登陸才能夠採集到,則須要配置登陸信息。開啓登陸後,右側會出現操做嚮導。
(2)關鍵詞采集
當採集對象是搜索欄時,須要進行關鍵詞配置。開啓關鍵詞采集後,右側會出現操做嚮導。
當網站登陸與採集登陸同時開啓時,可在任務屬性配置欄右側切換操做嚮導。url
【登陸與關鍵詞采集】
(3)瀏覽器採集
經過瀏覽器插件的方式採集數據。適用於大量JS生成且採集難度大的網頁。對JS支持好,近乎於在瀏覽器上點擊,但採集效率低。
(4)採集類型
採集類型分爲默認(html)和本地文件目錄兩種。
(5)禁用Cookie
禁止使用Cookie解析網頁。
(6)Cookie
當網站須要Cookie驗證才能採集時,須要配置Cookie信息。spa
3.模板抽取配置插件
【模板抽取配置】視頻
刪除模板、連接抽取或數據抽取。
添加連接抽取。
添加數據抽取。
(1)模板
模板經過一個示例地址,模板化同一層級的頁面,從而達到批量採集的效果。一個模板對應一個層級的頁面,所以同一層頁面只能配置一個模板,填寫一個示例地址,可是一個模板中能夠建立多個連接、數據抽取,每一個連接抽取都要關聯其餘模板。
經過模板之間的關聯,模擬網站各頁面的跳轉關係。經過連接抽取,抽出網頁中的連接。經過數據抽取,抓取網頁中的數據。
(2)模板屬性配置
【模板屬性配置】
①抽取類型選擇
抽取類型包括連接抽取和數據抽取。
【抽取類型選擇】
②示例地址
示例地址做爲樣例,成爲模板,經過以該地址配置模板,能夠抓取與該地址在同一層級、具備類似結構的頁面數據。
任務第一個模板的示例地址默認爲建立任務時填寫的採集地址。
【示例地址】
③高級選項
高級選項包括字符編碼、文檔類型、網頁類型、主題過濾、未匹配處理模板5個部分。(不經常使用功能)
【高級選項】
(3)連接(網址)配置
【連接(網址)配置】
①關聯模板
關聯模板是指該「連接抽取」抽取出的連接,其下一層級頁面對應的模板,也就是在瀏覽器中,點擊連接打開的下一層頁面。經過模板之間的關聯,能夠將網站各層級頁面關聯起來,在軟件中造成與瀏覽器相同的跳轉結構,從而完整的採集數據。
②連接類型
連接類型可分爲普通網頁連接、圖片視頻等資源連接和自定義類型三種。默認選擇普通網頁連接。
③智能過濾
智能過濾能夠一鍵過濾出,連接地址規律相同的連接。適用於大多數狀況,如過濾的不正確,可使用地址/標題過濾。
④定位過濾
定位過濾是經過內置瀏覽器定位,適用於所需連接都集中在一小片區域的狀況。
⑤地址/標題過濾
爲了在抽取的連接中去除無關連接,有兩種過濾方式,配置方式相同。地址過濾是經過url地址的規律,過濾無關連接。標題過濾是經過連接標題的規律,過濾無關連接。
(4)數據屬性配置
【數據屬性配置】
①數據表單
在ForeSpider爬蟲中,表單是能夠複用的,因此能夠在數據表單出直接選擇以前建過的表單,也能夠經過表單ID來進行查找並關聯數據表單。
②點擊建立表達
若在數據抽取連接下,沒有相應表單可供選擇,可點擊「建立表單」按鈕,快速建立表單。可添加表單名稱、字段名稱,選擇字段類型、表單模板。(>>快速建表/>>自由建表)
③數據存儲方式
指的是數據採集時,在數據庫裏的存儲方式。
④列表數據
識別列表用於存儲表格/列表的數據,將表格/列表的不一樣列對應存入不一樣字段,表格/列表的不一樣行分別存儲爲數據表的多條記錄。(>>如何採集列表/表格數據)
4.採集地址
採集對象的入口地址(url地址)。好比採集整個淘寶網所有商品的信息,淘寶網首頁就是入口地址。好比只採集「女裝」類別的商品信息,「女裝」首頁就是入口地址。
【採集地址】
5.內置瀏覽器
模擬不一樣版本的瀏覽器。填入採集地址,可點擊內置瀏覽器顯示採集頁面。
【內置瀏覽器】