前嗅ForeSpider中數據採集界面介紹

1、運行設置 數據採集前的設置,包括採集速度、採集策略、任務裝載、網絡超時、HTTP設置、加載設置、任務模式、任務定時、預警設置、過濾設置10個部分。網絡

【運行設置界面】socket

2、IP代理設置post

軟件支持動態和靜態IP代理,支持http/https/socket代理。當須要啓用IP代理時,須要在資源管理界面添加代理資源。測試

【IP代理設置界面】網站

1.啓用IP代理3d

啓用IP代理採集時,須要進行代理配置。需選中「啓用IP代理」,才能啓用IP代理功能。代理

【啓用IP代理】blog

2.IP資源列表圖片

添加完成的IP資源後會在列表中顯示。資源

【IP資源列表】

:添加IP資源代理。

:刪除IP資源代理。

:保存IP資源代理

:修改IP資源代理

3.IP代理配置

可添加IP代理帳號,配置IP代理屬性。

(1)靜態代理IP

【靜態代理IP配置】

:添加IP資源代理。

:刪除IP資源代理。

:批量導入IP帳號。

:保存IP資源代理。

(2)動態代理IP

【動態代理IP配置】

①協議類型:選擇代理的協議類型,軟件支持http/https/socket代理。

②返回格式:選擇動態IP的返回格式。包括未知、Text、Json、XML。

③刷新週期:指代理IP的有效時長。

④請求地址:粘貼代理商的請求地址。

⑤POST DATA:根據代理不一樣,post請求的狀況下填寫該內容。

⑥代碼編輯區:須要填寫一段腳本,以調用代理IP。

4.啓用代理加速

啓用代理加速後,能夠在採集過程當中自動篩選無效和低效率的代理IP(屏蔽錯誤率超過50%,請求次數>3次的IP),優先使用高效的代理,提高採集的效率和數據質量。

【代理加速】

5.本機IP混用策略

當代理IP失效時,選擇是否啓用本地網絡。

【本機IP混用策略】

3、驗證碼設置

當採集某些網站的數據時,每一條數據都須要輸入一條驗證碼時就用到了驗證碼設置。驗證碼設置的做用是爬蟲軟件自身輸入驗證碼,以免人工輸入。

【驗證碼設置界面】

1.識別配平臺

軟件內置了兩個打碼平臺,可根據不一樣的平臺進行驗證碼配置。

【識別平臺】

(1)基礎識別平臺:預約的內置識別方式。

(2)若快:若快爲打碼平臺。軟件經過打碼平臺解析驗證碼內容。

2.識別列表

添加驗證碼識別名稱。

【識別列表】

3.驗證碼設置與測試(不經常使用)

【資源配置】

其中紅框內詳情、保存、下載、清空、測試是用來測試驗證碼是否正確的。點擊測試若是右側驗證碼圖片與圖片下解析出來的文字一致,就證實驗證碼設置的正確。

相關文章
相關標籤/搜索