一步一步教你PowerBI利用爬蟲獲取天氣數據分析

  對於爬蟲你們應該不會陌生,咱們首先來看一下爬蟲的定義:網絡爬蟲是一種自動獲取網頁內容的程序,是搜索引擎的重要組成部分。網絡爬蟲爲搜索引擎從萬維網下載網頁,自動獲取網頁內容的應用程序。看到定義咱們應該已經知道它是能夠從萬維網上下載網頁解析網頁數據的。你們想一下在數據分析情景中它的應用場景有哪些?採集天氣數據,網站採集文章,採集各類票務信息,股票信息採集等等有不少地方都會用的爬蟲採集數據進行數據分析。經過數據分析增長分析維度信息,尤爲是行業數據對標。json

  說起爬蟲有些軟件工程師會第一時間想到Python。Python確實是很是方便的開發軟件,會附帶大量的依賴庫,能夠很是簡單快速構建爬蟲應用程序目前有一些框架只須要寫提取規則就能夠實現數據提取。咱們這裏要講的爬蟲是針對PowerBI軟件中建立的採集天氣數據爬蟲程序。不少行業會受天氣影響較大,若是可以知道某地區的天氣數據歷史記錄,就可讓銷售數據的維度更加豐富。從而給決策者判斷問題時作出更好的參考。接下來小黎子將以湖北省主要城市爲例,帶領你們一塊兒實現PowerBI構建爬蟲抓取天氣數據歷史記錄。本案例的數據源來自於網絡-天氣後報,網頁中的數據最簡單的一種形式就是表格。經過本文你們能夠和我同樣實現下圖的天氣報告網絡

 

1、分析網站的URL結構框架

一、肯定城市列表URL數據編輯器

我要分析的數據是湖北省主要城市的天氣,首先在天氣後報網站中找到歷史天氣,點擊進入後找到湖北省函數

 

 

二、肯定城市的URL信息學習

打開任意一個城市的界面,能夠單獨頁面內容爲武漢市各年度歷史天氣列表。主要URL中有WUHAN字符。這裏咱們能夠肯定每一個城市的連接都存在着相同的規律。網站

三、肯定月份的URL信息搜索引擎

點擊上圖的任意月份,進入月份的天氣列表頁。經過分析URL地址咱們也能夠看到規律。URL中城市拼音加年月的變量能夠得到各個城市各個月份天天的天氣情況。spa

 

 

2、構建爬蟲主體3d

在分析URL過程當中咱們已經找到了網頁URL的規律,所以,咱們能夠創建城市列表和日期列表。將兩個參數引入URL,從而抓取城市不一樣時間的天氣數據。注意,歷史天氣數據是回顧過去的,天氣預報也是同樣的分析思路。

一、創建城市列表

 

 

二、創建日期列表

在城市列表中添加開始日期

 

 

結束日期

 

 

日期,注意這裏須要將日期轉換爲數值,提取完成後再轉換爲日期

 

 

展開日期列數據,將格式更改成日期類型

 

 

添加年月列

 

 

提取年和月數據用於後續切片器

 

 

刪除重複項

 

 

三、將咱們處理好的數據賦值到URL中

城市列表和日期列表都已經處理好了,下一步就是處理兩個列表和URL的關聯關係

新建URL自定義列

 

 

忽略隱私檢查

 

 

展開URL列,選擇Source和Data列便可

 

 

展開Data列,只保留前四列數據

 

 

刪除多餘的內容,篩選去除標題和空白行

 

 

拆分氣溫爲最高和最低氣溫,按分隔符/拆分

 

 

去除溫度符號℃,用於轉換爲數值

 

 

處理後

 

 

到這裏咱們已經完成了爬蟲的數據清洗工做,接下來就開始進入可視化報告製做。

注意:因爲起始日期爲2011-1-1下載的數據量比較大,須要等待很長時間。你們能夠將起始日期更改成2019-1-1之後的日期加載數據會比較快一點。

 

3、製做可視化報告

一、製做年份,月份,城市切片器。城市切片器注意設置方向爲水平方向

二、氣溫趨勢線

三、天氣明細矩陣表

 

 

四、區域地圖

你們能夠根據本身的喜愛調整不一樣的主題顏色

 

4、總結

咱們順利完成了抓取湖北省各個城市的2019年的歷史天氣數據。在使用PowerBI爬蟲應用時須要注意的點:

一、分析URL規律是開始處理爬蟲的最重要的環節

二、經過PowerBI輸入數據功能創建城市列表和使用M函數創建日期列表。

三、兩個列表結合處理URL地址解析對應的天氣數據,經過WEB.CONTENTS提取網頁內容是爬蟲的核心內容。你們能夠繼續延伸學習M函數的使用方法。

四、在後續的文章中也會出現少許的M函數使用,編輯器中會有智能提示告訴你們使用規則,你們也能夠經過微軟官網查看M函數的語法。

注意:PowerBI爬蟲應用不僅是可以解析這種簡單的結構,目前有不少的網站後臺都是傳遞的json數據,PowerBI也是能夠應對的處理的,只是須要將JSON數據轉換爲表格。在後續的分析情景中我會進一步來說解爬蟲應用。

相關文章
相關標籤/搜索