詳解如何用爬蟲批量抓取百度搜索多個關鍵字數據

本文介紹如何使用軟件的流程圖模式,免費採集百度搜索多個關鍵字的信息數據。數據庫

軟件下載網址:www.houyicaiji.com工具

採集結果預覽:post

下面咱們來詳細介紹一下如何使用流程圖模式,採集在百度輸入多個關鍵字後的數據,具體步驟以下:網站

步驟一:新建採集任務3d

一、複製百度搜索的網頁地址(須要搜索結果頁的網址,而不是首頁的網址)blog

點此瞭解關於如何正確地輸入網址。教程

二、新建流程圖模式採集任務圖片

您能夠在軟件上直接新建採集任務,也能夠經過導入規則來建立任務。get

點此瞭解如何導入和導出採集規則。百度

步驟二:配置採集規則

一、設置多個關鍵字循環任務

在流程圖模式輸入網址新建任務以後,咱們點擊搜索框,而後在左上角出現的操做提示框內輸入要採集的文字,在這裏咱們輸入關鍵詞。

點此瞭解輸入文字組件的更多內容。

關鍵詞輸入以後,在頁面上出現了輸入文字組件,此時只設置了一個關鍵詞,咱們須要設置多個關鍵詞的搜索,所以須要拖動一個循環組件到任務欄,而後將輸入文字組建拖動到循環組件內,設置循環條件。

咱們在循環組件上選擇文本列表,而後在框內輸入要採集的關鍵詞,設置文字輸入組件使用文本內的循環。

點此瞭解更多循環組件的內容

二、設置提取字段數據

輸入多個關鍵字循環設置好以後,咱們設置須要提取的字段數據,點擊網頁上的字段,在左上角的操做提示框內選擇提取所有元素。

抽取出列表頁上的字段以後,咱們能夠右擊字段進行相關設置,包括修改字段名稱、增減字段、處理數據等。

點此瞭解更多關於提取字段組件的內容。

咱們須要採集標題、連接、摘要及時間等信息,字段設置效果以下:

三、設置下一頁

咱們採集出了單頁的數據,如今須要採集下一頁的數據,咱們點擊頁面上的「下一頁」按鈕,在左上角出現的操做提示框內選擇「循環點擊下一頁」。

點此瞭解更多關於翻頁的內容。

四、設置完整任務

因爲流程圖模式是一個循環套循環的過程,並列的循環任務沒法正常運行,咱們須要把抽取全部頁面的循環拖入到輸入多個關鍵字的循環內,拖動狀況以下:

步驟三:設置並啓動採集任務

一、設置採集任務

完成了採集數據添加,咱們能夠開始啓動採集任務了。點擊開始採集以後跳出任務欄,任務欄界面上有「更多設置」的按鈕,咱們能夠點擊進行設置,也能夠按照系統默認的設置。

點擊「更多設置」按鈕,在彈出的運行設置頁面中咱們能夠進行運行設置和防屏蔽設置,系統默認設置「2」秒請求等待時間,防屏蔽設置就按照系統默認設置,而後點擊保存。

二、啓動採集任務

點擊「保存並啓動」按鈕,可在彈出的頁面中進行一些高級設置,包括定時啓動、自動入庫和下載圖片,本次示例中未使用到這些功能,直接點擊「啓動」運行爬蟲工具。

點此深刻了解什麼是定時採集。

點此深刻了解什麼是自動入庫。

點此深刻了解如何下載圖片。

【舒適提示】免費版本可使用非週期性定時採集功能,下載圖片功能是免費的。我的專業版及以上版本可使用高級定時功能和自動入庫功能。

三、運行任務提取數據

任務啓動以後便開始自動採集數據,咱們從界面上能夠直觀的看到程序運行過程和採集結果,採集結束以後會有提醒。

步驟四:導出並查看數據

數據採集完成後,咱們能夠查看和導出數據,軟件支持多種導出方式(手動導出到本地、手動導出到數據庫、自動發佈到數據庫、自動發佈到網站)和導出文件的格式(EXCEL、CSV、HTML和TXT),咱們選擇本身須要方式和文件類型,點擊「確認導出」。

點此深刻了解如何查看和清空採集數據。

點此深刻了解如何導出採集結果。

【舒適提示】:全部手動導出功能都是免費的。我的專業版及以上版本可使用發佈到網站功能。

 

再爲您推薦幾個相關的採集教程:

如何採集百度搜索的多個關鍵字的數據(流程圖模式)

如何免費採集今日頭條信息數據

如何免費採集淘寶商品信息數據

相關文章
相關標籤/搜索