請先安裝爬蟲軟件。爬蟲軟件安裝html
今天講講微博博主主頁的採集。
目標是採集博主名稱、微博內容、發博日期、微博內容、轉發數、評論數和點贊數。
學習流程見下圖——瀏覽器
樣本網址:最近很火的寶寶的微博主頁
http://weibo.com/wbq?refer_flag=1001030101_&is_hot=1#_rnd1471331959489學習
操做參見圖。測試
點擊操做欄中的「建立規則」,點擊新建,給整理箱取一個名稱,整理箱就是存放數據的地方,好比「列表」,箱子必須有,不然程序不知道把採集下來的數據放哪裏。3d
接下來告訴整理箱要採集的數據有哪些,分別取個名字。右擊「列表」,選擇「添加」,選擇「包容」。htm
輸入抓取內容的名稱(博主名稱)以後,後點擊保存。blog
接下來,右擊「博主名稱」,選擇「添加」,選擇「其後」,同理,輸入抓取內容的名稱後點擊保存。教程
前面說了,咱們要採集博主名稱、微博內容、發博日期、微博內容、轉發數、評論數和點贊數這些字段,那就重複上一步操做分別添加。get
接下來要告訴爬蟲哪些內容是想採集的(內容映射)——微博
同理,其餘的抓取內容也按此操做,先在MS謀數臺瀏覽器中點擊要抓取的內容,雙擊展開在網頁標籤窗口中定位到的區塊節點,找到#text節點,內容映射給抓取內容的名稱。
點擊「測試」按鈕,彈出一個設置關鍵內容的框,以後將博主名稱設置爲關鍵內容,其實你能夠設置任何一個抓取內容爲關鍵內容,只要這個內容必定會在網頁中出現就好了。
再次點擊「測試」按鈕,看到輸出信息中只有一條微博內容。
要實現採集博主主頁上的多條微博,那麼就要作樣例複製操做,看圖。
接着點擊測試,發現轉發數、評論數和點贊數採集的內容不許了,這個緣由後面的教程會詳細講解。
點擊測試,將整理箱的定位偏好改成「偏好class」。
再次點擊測試,採集內容準確了,確認規則沒錯後點擊「存規則」,而後點擊「爬數據」,期間會彈出DS打數機在採集數據,不要關閉它
DS打數機頁面變成空白表示採集已經完成,點擊「文件>存儲路徑」能夠看到DS打數機採集的數據保存在本地哪了
在本地「DataScraperWorks」文件夾中能夠看以該規則命名的一個子文件,用瀏覽器將子文件中的XML格式打開,看到寶寶的第一頁微博數據都採集下來了,bingo~
看到這裏,留下兩個問題——
後面再學。