本文介紹如何使用軟件的流程圖模式,免費採集百度搜索多個關鍵字的信息數據。數據庫
軟件下載網址:www.houyicaiji.com工具
採集結果預覽:post
下面咱們來詳細介紹一下如何使用流程圖模式,採集在百度輸入多個關鍵字後的數據,具體步驟以下:網站
步驟一:新建採集任務3d
一、複製百度搜索的網頁地址(須要搜索結果頁的網址,而不是首頁的網址)blog
點此瞭解關於如何正確地輸入網址。教程
二、新建流程圖模式採集任務圖片
您能夠在軟件上直接新建採集任務,也能夠經過導入規則來建立任務。get
點此瞭解如何導入和導出採集規則。百度
步驟二:配置採集規則
一、設置多個關鍵字循環任務
在流程圖模式輸入網址新建任務以後,咱們點擊搜索框,而後在左上角出現的操做提示框內輸入要採集的文字,在這裏咱們輸入關鍵詞。
點此瞭解輸入文字組件的更多內容。
關鍵詞輸入以後,在頁面上出現了輸入文字組件,此時只設置了一個關鍵詞,咱們須要設置多個關鍵詞的搜索,所以須要拖動一個循環組件到任務欄,而後將輸入文字組建拖動到循環組件內,設置循環條件。
咱們在循環組件上選擇文本列表,而後在框內輸入要採集的關鍵詞,設置文字輸入組件使用文本內的循環。
點此瞭解更多循環組件的內容
二、設置提取字段數據
輸入多個關鍵字循環設置好以後,咱們設置須要提取的字段數據,點擊網頁上的字段,在左上角的操做提示框內選擇提取所有元素。
抽取出列表頁上的字段以後,咱們能夠右擊字段進行相關設置,包括修改字段名稱、增減字段、處理數據等。
點此瞭解更多關於提取字段組件的內容。
咱們須要採集標題、連接、摘要及時間等信息,字段設置效果以下:
三、設置下一頁
咱們採集出了單頁的數據,如今須要採集下一頁的數據,咱們點擊頁面上的「下一頁」按鈕,在左上角出現的操做提示框內選擇「循環點擊下一頁」。
點此瞭解更多關於翻頁的內容。
四、設置完整任務
因爲流程圖模式是一個循環套循環的過程,並列的循環任務沒法正常運行,咱們須要把抽取全部頁面的循環拖入到輸入多個關鍵字的循環內,拖動狀況以下:
步驟三:設置並啓動採集任務
一、設置採集任務
完成了採集數據添加,咱們能夠開始啓動採集任務了。點擊開始採集以後跳出任務欄,任務欄界面上有「更多設置」的按鈕,咱們能夠點擊進行設置,也能夠按照系統默認的設置。
點擊「更多設置」按鈕,在彈出的運行設置頁面中咱們能夠進行運行設置和防屏蔽設置,系統默認設置「2」秒請求等待時間,防屏蔽設置就按照系統默認設置,而後點擊保存。
二、啓動採集任務
點擊「保存並啓動」按鈕,可在彈出的頁面中進行一些高級設置,包括定時啓動、自動入庫和下載圖片,本次示例中未使用到這些功能,直接點擊「啓動」運行爬蟲工具。
點此深刻了解什麼是定時採集。
點此深刻了解什麼是自動入庫。
點此深刻了解如何下載圖片。
【舒適提示】免費版本可使用非週期性定時採集功能,下載圖片功能是免費的。我的專業版及以上版本可使用高級定時功能和自動入庫功能。
三、運行任務提取數據
任務啓動以後便開始自動採集數據,咱們從界面上能夠直觀的看到程序運行過程和採集結果,採集結束以後會有提醒。
步驟四:導出並查看數據
數據採集完成後,咱們能夠查看和導出數據,軟件支持多種導出方式(手動導出到本地、手動導出到數據庫、自動發佈到數據庫、自動發佈到網站)和導出文件的格式(EXCEL、CSV、HTML和TXT),咱們選擇本身須要方式和文件類型,點擊「確認導出」。
點此深刻了解如何查看和清空採集數據。
點此深刻了解如何導出採集結果。
【舒適提示】:全部手動導出功能都是免費的。我的專業版及以上版本可使用發佈到網站功能。
再爲您推薦幾個相關的採集教程: