【03】基礎:同種網頁結構套用採集規則

請先安裝爬蟲軟件。爬蟲軟件安裝html

通過上個教程小試牛刀以後就能夠嚐到得到數據的喜悅了。ide

回顧一下,上個教程主要了解了MS謀數臺的工做職責-定義採集規則,測試規則無誤以後點擊MS謀數臺右上角的「爬數據」後彈出DS打數機,而後看到打數機窗口正在快馬加鞭地抓取數據。這兩個部件的工做配合地很緊密。測試

在學會將xml文件轉成Excel以前,先解決當下的一個疑問?若是要採集其餘博主主頁的微博,是要從新作過規則嗎?非也~xml

用MS謀數臺製定採集規則用了一個樣本網址,既然是樣本,可想而知,與樣本相同結構的網頁,均可以套用該規則進行採集了。htm

爲一個採集規則添加一個相同結構的網址就是給該規則添加一個線索。blog

之後用該規則抓取數據的時候就會運行全部的線索而不單單是樣本網址。教程

前一個教程採集微博博主主頁是將寶寶主頁的網址做爲樣本網址來制定採集規則的。寶寶以前參加過很火的《奔跑吧兄弟》,如今我想採集兄弟團全部成員的微博主頁,只要將他們主頁網址當成新的線索添加給以前作的「weibo_博主主頁」採集規則就OK了。get

怎麼添加線索?

第一季兄弟團各個成員的主頁網址以下:微博

先進入集搜客官網,登陸後點擊右上角本身的用戶名以後進入會員中心>爬蟲管理>規則管理,點擊主題名,進入線索管理頁面。入門

看到「weibo_博主主頁」下只有樣本網址這一條線索。

單條添加

點擊「添加線索」,輸入線索網址後保存。

批量添加

用Excel存儲線索網址

點擊「批量導入線索」,添加附件,點擊「批量導入」後添加成功!

添加了6條,加上原來的一個樣本網址,總共7條線索,如今都是「待抓取」狀態。

在這個頁面,除了添加線索、還能夠激活、去活以及刪除線索。

如何運行線索?

運行採集規則就是運行規則裏頭的線索。

由上圖可知,如今「weibo_博主主頁」這個規則中有7條線索,都是「待抓取」狀態。運行這些線索要在DS打數機啓動。

打開DS打數機,搜索出要運行的規則,點擊「單搜」或者「集搜」均可以啓動DS打數機進行抓取數據。

單搜:在當前DS窗口採集;集搜:彈出新的窗口採集。

點擊集搜後,待抓取線索有幾條就輸入幾條,點擊肯定。

咱們看到DS打數機立刻在運行抓取了。

若是不知道待抓取線索有多少條,在DS打數機右擊統計線索就能夠了。

如何激活線索?

剛剛運行了「weibo_博主主頁」這個採集規則,在會員中心看到這7條線索都是「抓取完成」的狀態。

若是按上面的步驟在DS打數機中再次運行規則,這時候會提示沒有線索了,那是由於剛剛已經運行這7條線索了。

要從新抓取這些線索只要從新將這些線索激活就能夠了,激活之後這些線索的狀態將會變成「待抓取」。

激活有兩種方法——

規則管理激活

在規則管理選擇要激活的線索後點擊「激活」按鈕。

DS窗口激活

到這裏,看看剛剛運行「weibo_博主主頁」這個採集規則的結果文件吧~

下一期將講結果文件轉成Excel,學完下一期你就已經入門了,只要不是複雜的網頁你均可以採集了,所向披靡,是否是很激動。

相關文章
相關標籤/搜索