【02】基礎:單頁採集(以微博博主主頁採集爲例)

請先安裝爬蟲軟件。爬蟲軟件安裝html

前言

今天講講微博博主主頁的採集。
目標是採集博主名稱、微博內容、發博日期、微博內容、轉發數、評論數和點贊數。
學習流程見下圖——瀏覽器

1、加載頁面,定義主題名

樣本網址:最近很火的寶寶的微博主頁
http://weibo.com/wbq?refer_flag=1001030101_&is_hot=1#_rnd1471331959489學習

操做參見圖。測試

2、創建整理箱進行內容映射

點擊操做欄中的「建立規則」,點擊新建,給整理箱取一個名稱,整理箱就是存放數據的地方,好比「列表」,箱子必須有,不然程序不知道把採集下來的數據放哪裏。3d

接下來告訴整理箱要採集的數據有哪些,分別取個名字。右擊「列表」,選擇「添加」,選擇「包容」。htm

輸入抓取內容的名稱(博主名稱)以後,後點擊保存。blog

接下來,右擊「博主名稱」,選擇「添加」,選擇「其後」,同理,輸入抓取內容的名稱後點擊保存。教程

前面說了,咱們要採集博主名稱、微博內容、發博日期、微博內容、轉發數、評論數和點贊數這些字段,那就重複上一步操做分別添加。get

接下來要告訴爬蟲哪些內容是想採集的(內容映射)——微博

  1. 在MS謀數臺的瀏覽器窗口,點擊博主名稱以後,會自動定位到網頁標籤中的A節點,雙擊展開A節點,找出包含博主名稱的#text節點,咱們看到文本內容窗口顯示的內容是王寶寶,說明博主名稱對應的節點選對了
  2. 右擊#text節點,選擇「內容映射>博主名稱」,這時定位編號的數字由-1變成了正數,說明映射到了
    上面的操做至關於告訴MS謀數臺「博主名稱」抓什麼。

同理,其餘的抓取內容也按此操做,先在MS謀數臺瀏覽器中點擊要抓取的內容,雙擊展開在網頁標籤窗口中定位到的區塊節點,找到#text節點,內容映射給抓取內容的名稱。

3、樣例複製採集多條微博

點擊「測試」按鈕,彈出一個設置關鍵內容的框,以後將博主名稱設置爲關鍵內容,其實你能夠設置任何一個抓取內容爲關鍵內容,只要這個內容必定會在網頁中出現就好了。

再次點擊「測試」按鈕,看到輸出信息中只有一條微博內容。

要實現採集博主主頁上的多條微博,那麼就要作樣例複製操做,看圖。

  1. 將鼠標定位到整理箱的容器節點「列表」(容器節點才能作樣例複製),勾選啓用
  2. 點擊網頁上的第一個樣例(紅框),自動定位後,往上逐層點擊找到能框住整個樣例的區塊節點,而後右擊映射給樣例1
  3. 同理,選中相鄰的下一個區塊節點,映射給樣例2

接着點擊測試,發現轉發數、評論數和點贊數採集的內容不許了,這個緣由後面的教程會詳細講解。

點擊測試,將整理箱的定位偏好改成「偏好class」。

4、保存規則,運行DS打數機抓取數據

再次點擊測試,採集內容準確了,確認規則沒錯後點擊「存規則」,而後點擊「爬數據」,期間會彈出DS打數機在採集數據,不要關閉它


DS打數機頁面變成空白表示採集已經完成,點擊「文件>存儲路徑」能夠看到DS打數機採集的數據保存在本地哪了


在本地「DataScraperWorks」文件夾中能夠看以該規則命名的一個子文件,用瀏覽器將子文件中的XML格式打開,看到寶寶的第一頁微博數據都採集下來了,bingo~

看到這裏,留下兩個問題——

  1. 怎麼將XML格式的文件轉爲Excel格式?
  2. 怎麼採集多頁的微博數據呢?

後面再學。

相關文章
相關標籤/搜索