【02】基礎：單頁採集（以微博博主主頁採集爲例）

時間 2019-12-04

標籤基礎單頁採集微博主頁爲例欄目網絡爬蟲简体版

原文原文鏈接

請先安裝爬蟲軟件。爬蟲軟件安裝html

今天講講微博博主主頁的採集。
目標是採集博主名稱、微博內容、發博日期、微博內容、轉發數、評論數和點贊數。
學習流程見下圖——瀏覽器

樣本網址：最近很火的寶寶的微博主頁
http://weibo.com/wbq?refer_flag=1001030101_&is_hot=1#_rnd1471331959489學習

操做參見圖。測試

點擊操做欄中的「建立規則」，點擊新建，給整理箱取一個名稱，整理箱就是存放數據的地方，好比「列表」，箱子必須有，不然程序不知道把採集下來的數據放哪裏。3d

接下來告訴整理箱要採集的數據有哪些，分別取個名字。右擊「列表」，選擇「添加」，選擇「包容」。htm

輸入抓取內容的名稱（博主名稱）以後，後點擊保存。blog

接下來，右擊「博主名稱」，選擇「添加」，選擇「其後」，同理，輸入抓取內容的名稱後點擊保存。教程

前面說了，咱們要採集博主名稱、微博內容、發博日期、微博內容、轉發數、評論數和點贊數這些字段，那就重複上一步操做分別添加。get

接下來要告訴爬蟲哪些內容是想採集的（內容映射）——微博

在MS謀數臺的瀏覽器窗口，點擊博主名稱以後，會自動定位到網頁標籤中的A節點，雙擊展開A節點，找出包含博主名稱的#text節點，咱們看到文本內容窗口顯示的內容是王寶寶，說明博主名稱對應的節點選對了
右擊#text節點，選擇「內容映射>博主名稱」，這時定位編號的數字由-1變成了正數，說明映射到了
上面的操做至關於告訴MS謀數臺「博主名稱」抓什麼。

同理，其餘的抓取內容也按此操做，先在MS謀數臺瀏覽器中點擊要抓取的內容，雙擊展開在網頁標籤窗口中定位到的區塊節點，找到#text節點，內容映射給抓取內容的名稱。