新浪微博數據採集圖文詳解

隨着大數據和社交網絡的火爆發展,社交網絡上產生的數據也愈來愈有價值,特別是微博微信做爲時下最火熱的社交平臺,若是能對這兩個平臺上的數據進行深刻分析挖掘,那麼價值將很是巨大, 要採集的數據爲指定城市的全部微博用戶的相關信息。好比微博名稱,微博地址,微博數量,粉絲數量,名片等等,進入正題,看看具體一步一步怎麼操做來實現的。服務器

  1. 打開八爪魚採集器,新建一個任務以後,以下圖選擇分組:新浪微博,這裏其實隨便什麼分組均可以,我是把新浪微博專門放了一個分組,以便管理採集微博的多個任務。任務名稱,這裏按照本身的狀況輸入便可,我這裏採集的是瀋陽的微博信息。而後輸入備註。微信

  2. 而後就到了設計採集流程的界面,這個界面看起來複雜,其實很簡單,咱們先看上面一半,包括第一個 Go to Web Page, 和Check Condition 裏面的所有流程步驟。其實他們完成一個什麼工做呢?就是打開微博登陸頁面,而後檢查用戶是否登陸,若是沒有登陸,則走左邊流程,三步:輸入用戶名,輸入密碼,點擊登陸。若是已經登陸,則走右邊流程:什麼事情都不作。爲何須要登陸呢,若是不登陸,則只能看到一頁數據,登陸後就能看全部數據,因此咱們想要採集全部數據,就要登陸。下半部分流程因截圖不全,因此請你們看第三步。網絡

  3. 接上一步,這裏看下半部分流程,下半部分第一步是打開瀋陽用戶列表,而後是一個Loop循環:循環翻頁,由於咱們要採集全部頁面的數據,在這個循環內部,還有一個循環:循環當前頁全部用戶,這樣就能採集到一個頁面的多個用戶的數據,微博一頁有20個用戶的數據。這個循環內部有一個提取數據的步驟,這一步就是真正提取數據,不過他提取的是當前循環用戶的數據。咱們只須要在頁面上點擊要採集的數據,系統就會自動配置好,因此這一步很容易。oop

  4. 配置好採集規則以後,咱們設定執行計劃,這裏由於我須要每週採集一次,以獲取到這一週新註冊的微博用戶,因此我選擇一週一次,注意這個定時是雲採集的,意思是,他會在八爪魚採集器的雲服務器跑,並且啓動時間如圖,咱們定的是週一夜0點,固然這個時間你能夠本身定。因此咱們電腦不用每週一夜0點打開去採集,咱們配好就無論了,之後每一個週一0點,八爪魚雲採集服務器都會自動啓動個人任務進行採集。測試

  5. 通過以上幾個步驟就算配置好了,咱們下一步,進行一個測試,從圖中能夠看到已經順利採集到了數據,當採集完成以後,便可導出爲Excel等使用了。大數據

相關文章
相關標籤/搜索