1、運行設置 數據採集前的設置,包括採集速度、採集策略、任務裝載、網絡超時、HTTP設置、加載設置、任務模式、任務定時、預警設置、過濾設置10個部分。網絡
【運行設置界面】socket
2、IP代理設置post
軟件支持動態和靜態IP代理,支持http/https/socket代理。當須要啓用IP代理時,須要在資源管理界面添加代理資源。測試
【IP代理設置界面】網站
1.啓用IP代理3d
啓用IP代理採集時,須要進行代理配置。需選中「啓用IP代理」,才能啓用IP代理功能。代理
【啓用IP代理】blog
2.IP資源列表圖片
添加完成的IP資源後會在列表中顯示。資源
【IP資源列表】
:添加IP資源代理。
:刪除IP資源代理。
:保存IP資源代理
:修改IP資源代理
3.IP代理配置
可添加IP代理帳號,配置IP代理屬性。
(1)靜態代理IP
【靜態代理IP配置】
:添加IP資源代理。
:刪除IP資源代理。
:批量導入IP帳號。
:保存IP資源代理。
(2)動態代理IP
【動態代理IP配置】
①協議類型:選擇代理的協議類型,軟件支持http/https/socket代理。
②返回格式:選擇動態IP的返回格式。包括未知、Text、Json、XML。
③刷新週期:指代理IP的有效時長。
④請求地址:粘貼代理商的請求地址。
⑤POST DATA:根據代理不一樣,post請求的狀況下填寫該內容。
⑥代碼編輯區:須要填寫一段腳本,以調用代理IP。
4.啓用代理加速
啓用代理加速後,能夠在採集過程當中自動篩選無效和低效率的代理IP(屏蔽錯誤率超過50%,請求次數>3次的IP),優先使用高效的代理,提高採集的效率和數據質量。
【代理加速】
5.本機IP混用策略
當代理IP失效時,選擇是否啓用本地網絡。
【本機IP混用策略】
3、驗證碼設置
當採集某些網站的數據時,每一條數據都須要輸入一條驗證碼時就用到了驗證碼設置。驗證碼設置的做用是爬蟲軟件自身輸入驗證碼,以免人工輸入。
【驗證碼設置界面】
1.識別配平臺
軟件內置了兩個打碼平臺,可根據不一樣的平臺進行驗證碼配置。
【識別平臺】
(1)基礎識別平臺:預約的內置識別方式。
(2)若快:若快爲打碼平臺。軟件經過打碼平臺解析驗證碼內容。
2.識別列表
添加驗證碼識別名稱。
【識別列表】
3.驗證碼設置與測試(不經常使用)
【資源配置】
其中紅框內詳情、保存、下載、清空、測試是用來測試驗證碼是否正確的。點擊測試若是右側驗證碼圖片與圖片下解析出來的文字一致,就證實驗證碼設置的正確。