前嗅ForeSpider採集配置界面介紹

時間 2019-12-14

標籤 forespider 採集配置界面介紹欄目網絡爬蟲简体版

原文原文鏈接

今天，小編爲你們介紹一下，前嗅ForeSpider的採集配置界面，具體內容以下：html

啓動ForeSpider採集軟件後，默認界面如圖所示。ROOT任務下有已經配置好的示例模板，點擊網站圖標便可進行採集預覽。可在任務列表選擇某一任務按照需求從新配置。數據庫

【採集配置界面】瀏覽器

1.任務列表ide

【任務列表】
任務對應着採集來源，一般一個採集來源對應着一個任務。如採集人民網時，人民網就是一個任務；經過百度採集全網信息時，百度就是一個任務；經過100個網址導航採集全球域名時，這100個網址導航就是一個任務。網站

2.任務屬性配置
用戶可根據採集需求與網站的設置選擇性的配置任務屬性。
任務屬性配置包括登陸網站、關鍵詞采集、瀏覽器採集、採集類型、禁用Cookie及Cookie設置6個部分。編碼

【任務屬性配置】
（1）登陸網站
若是採集源的數據須要登陸才能夠採集到，則須要配置登陸信息。開啓登陸後，右側會出現操做嚮導。
（2）關鍵詞采集
當採集對象是搜索欄時，須要進行關鍵詞配置。開啓關鍵詞采集後，右側會出現操做嚮導。
當網站登陸與採集登陸同時開啓時，可在任務屬性配置欄右側切換操做嚮導。url

【登陸與關鍵詞采集】
（3）瀏覽器採集
經過瀏覽器插件的方式採集數據。適用於大量JS生成且採集難度大的網頁。對JS支持好，近乎於在瀏覽器上點擊，但採集效率低。
（4）採集類型
採集類型分爲默認（html）和本地文件目錄兩種。
（5）禁用Cookie
禁止使用Cookie解析網頁。
（6）Cookie
當網站須要Cookie驗證才能採集時，須要配置Cookie信息。spa

3.模板抽取配置插件

【模板抽取配置】視頻

刪除模板、連接抽取或數據抽取。

添加連接抽取。

添加數據抽取。

（1）模板
模板經過一個示例地址，模板化同一層級的頁面，從而達到批量採集的效果。一個模板對應一個層級的頁面，所以同一層頁面只能配置一個模板，填寫一個示例地址，可是一個模板中能夠建立多個連接、數據抽取，每一個連接抽取都要關聯其餘模板。
經過模板之間的關聯，模擬網站各頁面的跳轉關係。經過連接抽取，抽出網頁中的連接。經過數據抽取，抓取網頁中的數據。
（2）模板屬性配置

【模板屬性配置】
①抽取類型選擇
抽取類型包括連接抽取和數據抽取。

【抽取類型選擇】
②示例地址
示例地址做爲樣例，成爲模板，經過以該地址配置模板，能夠抓取與該地址在同一層級、具備類似結構的頁面數據。
任務第一個模板的示例地址默認爲建立任務時填寫的採集地址。

【示例地址】
③高級選項
高級選項包括字符編碼、文檔類型、網頁類型、主題過濾、未匹配處理模板5個部分。（不經常使用功能）

【高級選項】
（3）連接（網址）配置

【連接（網址）配置】
①關聯模板
關聯模板是指該「連接抽取」抽取出的連接，其下一層級頁面對應的模板，也就是在瀏覽器中，點擊連接打開的下一層頁面。經過模板之間的關聯，能夠將網站各層級頁面關聯起來，在軟件中造成與瀏覽器相同的跳轉結構，從而完整的採集數據。
②連接類型
連接類型可分爲普通網頁連接、圖片視頻等資源連接和自定義類型三種。默認選擇普通網頁連接。
③智能過濾
智能過濾能夠一鍵過濾出，連接地址規律相同的連接。適用於大多數狀況，如過濾的不正確，可使用地址/標題過濾。
④定位過濾
定位過濾是經過內置瀏覽器定位，適用於所需連接都集中在一小片區域的狀況。
⑤地址/標題過濾
爲了在抽取的連接中去除無關連接，有兩種過濾方式，配置方式相同。地址過濾是經過url地址的規律，過濾無關連接。標題過濾是經過連接標題的規律，過濾無關連接。
（4）數據屬性配置

【數據屬性配置】
①數據表單
在ForeSpider爬蟲中，表單是能夠複用的，因此能夠在數據表單出直接選擇以前建過的表單，也能夠經過表單ID來進行查找並關聯數據表單。
②點擊建立表達
若在數據抽取連接下，沒有相應表單可供選擇，可點擊「建立表單」按鈕，快速建立表單。可添加表單名稱、字段名稱，選擇字段類型、表單模板。（>>快速建表/>>自由建表）
③數據存儲方式
指的是數據採集時，在數據庫裏的存儲方式。
④列表數據
識別列表用於存儲表格/列表的數據，將表格/列表的不一樣列對應存入不一樣字段，表格/列表的不一樣行分別存儲爲數據表的多條記錄。（>>如何採集列表/表格數據）

4.採集地址
採集對象的入口地址（url地址）。好比採集整個淘寶網所有商品的信息，淘寶網首頁就是入口地址。好比只採集「女裝」類別的商品信息，「女裝」首頁就是入口地址。

【採集地址】

5.內置瀏覽器
模擬不一樣版本的瀏覽器。填入採集地址，可點擊內置瀏覽器顯示採集頁面。

【內置瀏覽器】