http://www.cnblogs.com/muchen/p/5391101.htmlhtml
閱讀目錄
•前言
•Power BI的三大工做區
•導入數據
•數據塑形 - 工做區介紹
•數據塑形 - 工做流程
•報表製做 - 工做區介紹
•報表製做 - 詳細流程
•小結
•課後做業數據庫
前言瀏覽器
報表製做流程的第一步顯然是從各個數據源導入數據,Power BI能從不少種數據源導入數據:如Excel,CSV,XML,以及各種數據庫(SQL Server,Oracle,My SQL等),兩大主流開源平臺(Hadoop,Spark)等等。本文篇幅所限,沒法一一說明,僅就網頁獲取數據的方式進行講解(其餘方式大同小異)。 而後本文將在Power BI後臺工做區(下簡稱後臺區)對獲取到的數據集進行塑形。所謂塑形就是肯定數據集的列名以及數據類型,還有進行一些基本數據清洗轉換工做,以保證Power BI報表模塊能正確解讀數據集。塑形後的數據集其實就是Power BI報表繪製區(下簡稱報表區)的輸入。 一旦數據塑形好,咱們就能切換到Power BI報表區繪製各類報表了。最後本文將製做一張報表,愉快地結束本次學習。
回到頂部markdown
Power BI的三大工做區ide
在上篇中,大體介紹了Power BI的開發流程,以下圖所示:
Power BI中,報表區和後臺區分別對應"報表繪製"和"數據塑形"階段。關聯工做區(下簡稱關聯區)則負責關聯Power BI中的多個表。讀者如今無需糾結這個工做區,後期教程會對它進行詳細講解。 剛打開Power BI,將進入到報表區。下圖標記了報表區中後臺區的入口:
點擊左側中間那個亮藍色按鈕則會進入到後臺區的"只讀模式"。它不是真正的後臺工做區不能對數據作任何轉換處理工做,這點初學者務必注意。 下圖標記了後臺區進入報表繪製區的入口,點擊該按鈕會返回到報表區並使用塑形後的數據更新報表:
導入數據工具
本文采用的數據集來源於以下網頁: http://www.bankrate.com/finance/retirement/best-places-retire-how-state-ranks.aspx 該網頁描述的主題是"退休之後生活在哪裏(美國哪一個州)最合適",表中字段信息均爲各州在居住成本、稅率、犯罪率等方面在全國的排名。 用瀏覽器打開看看:
本文工做的第一步,就是使用Power BI將這份表格抓下來。不須要把網頁拷出來,更不須要寫爬蟲,只須要將網頁地址告訴Power BI,它就能幫你把這份表格完完整整地抓下來。 首先,在報表區點擊獲取數據:
而後,選擇Web格式數據:
再輸入要抓取的網址:
稍後片刻這份表格就被抓下來啦,整個過程1分鐘都不用:
而拿到數據的下一步,就是數據塑形。通常來講網頁顯示的數據格式未必是您要的報表數據格式,下面咱們進入後臺區來"捏一捏"這些數據。(進入後臺區的方式上面講了,這裏就不浪費篇幅了哈)
回到頂部oop
數據塑形 - 工做區介紹佈局
進入後臺區後,將看到以下視窗:
主區域展現了本文從網頁獲取到的表格,此外上方還有一批功能欄。其中,開始功能欄內容以下:
這些都是最經常使用的數據塑形操做,如重載數據、刪除行列、排序、列拆分、數據分組,合併查詢等等。其餘三個功能欄:轉換、添加列、視圖則是對應數據塑形功能的細化。 另外須要注意的是查詢設置窗口。咱們在工做區作的任何操做在這裏都會記錄下來,可隨時點選以回退到過去的操做(不要Ctrl + Z哈):
咱們在歷史操做中作了修改後,下游操做也會被同步更新。另外點擊途中紅框處的那個X能夠將該操做撤銷。學習
關於查詢設置窗口還有不少好玩的用法,本文篇幅所限就不一一說明了,讀者可自行嘗試。
回到頂部3d
數據塑形 - 工做流程
下面咱們回過頭來看看獲取到的這份表格:
首先檢查行名、列名、行數、列數。發現多出了一個Header列,將它刪掉。其餘部分沒啥問題。 而後檢查各列的數據類型,確保須要統計的字段是可統計的類型(如整數,浮點數等)。具體方法是將功能欄切換到"轉換功能欄",每當咱們點選一列時,下圖紅色標記位置將顯示列的數據類型:
顯然上圖中列的數據類型是錯的,須要將它轉換爲整數型。爲何單就這一列有問題,沒被正確轉換爲整型呢?這是由於該列有些字段含有文本字符,如上圖中的藍框標記處。 解決方法很簡單,在"轉換功能欄"配置替換機制將這些異常數據修復。好比將"27(tied)"替換爲"27"就能夠了。 數據修復完畢後,便可對它進行轉型。只需右鍵->轉換類型-> 整型便可,也能夠直接在功能區進行修改:
然而,假如如今多了一個需求:要求數據集中還得有州的簡稱。怎麼作?一個個輸進去嗎? 固然不是的,假如數據量很大,幾千行,那不得加班加點搞了。幾萬行,幾十萬行呢?在使用任何工具的時候都應該思考如何"偷懶",這裏可以使用Power BI的數據合併功能輕鬆作好這個需求。 在維基百科裏,能夠搜索到美國各州對應的簡稱(https://en.wikipedia.org/wiki/List_of_U.S._state_abbreviations),打開該網頁:
接下來將把原來的表格關聯到上述表(至關於SQL中的Join),並截取其中的ANSI列(該列表示各州簡稱)。用先前的方法,將該網頁的這份報表抓取下來。而後對該表格內容進行如下塑形工做: 1. 移除頭兩行表頭信息:
2. 移除底端26條信息(它們不是美國的州名,而是些美屬領土)。方法和1相似,就不截圖展現了。 3. 篩選掉行政特區:
4. 刪除多餘的列。直接在須要刪除的列的表頭右鍵,而後點選刪除列便可。(可Ctrl法選擇多個列) 5. 將第一行選定爲表頭:
6. 修改列名(右鍵點擊列表頭->重命名便可)。塑形完畢後,該表數據以下:
由於這份表格數據比較雜亂一點,和需求不是很是吻合,所以塑形工做多了點。不過大都是些界面操做,作下來也就5分鐘左右的工做量。
接下來是見證奇蹟的一刻^_^:將兩份表格Join起來。具體方法是在"開始功能欄"點選"合併查詢",而後設置鏈接信息:
點擊肯定後,發現新生成的表居然多了一列呢:
展開它就是了:
要注意State Name是鏈接鍵屬性,原表亦有該字段。故不用展開它。
至此,一個階段的數據塑形算是完成了,接下來就能夠進入到報表區繪製報表。下面是本階段數據塑形的結果表:
其中選中的列表示各州的簡稱,是經過合併查詢擴展到的字段。 須要提醒讀者的是數據塑形得越規整,接下來的報表製做就越是駕輕就熟。因此請讀者耐心看完這部分的講解,心急吃不了熱豆腐:)
回到頂部
報表製做 - 工做區介紹
回到報表繪製區,咱們將看到以下視窗:
其中開始功能區是製做報表過程當中經常使用到的編輯功能和可視化的管理功能。建模功能區容許用戶在報表區完成一些簡單的數據塑形工做。格式功能區則容許用戶對工做區報表進行佈局和圖層控制。
報表區的右側則是咱們的工做區:
這是報表區工做的核心位置,它的用法將在下一節詳細講解。
回到頂部
報表製做 - 詳細流程
Power BI中,不管是繪製什麼圖表,整體的步驟都是如下幾步。下面筆者以一個簡單報表爲例講解Power BI中報表製做的整體過程。 1. 選中目標繪製圖形。咱們這裏選擇一個經典的條狀圖吧:
發現柱狀圖有東西顯示了:
顯然因爲一次分析的州太多,有限的空間顯示不來的。。。 3. 篩掉一部分數據。若是咱們想只分析美國事宜退休人員居住排行榜前10的州,可設置篩選器:
這樣設置將令Power BI繪製報表時只取用總排名前10的州的數據。點擊應用後發現圖像那麼回事兒了:
但如今又發現一個問題。橫軸的循序顯然是按照州名排序的,這樣的圖根本看不出任何信息。 4. 調整可視化元素呈現順序。關鍵是在建模功能區設置列的排序方式。咱們首先選中須要調整順序的目標列: 而後在建模功能區修改該列的呈現規則,將其展示順序綁定到Overall rank列:
這樣柱狀圖就會按照Overall rank列遞增的順序繪製柱狀。
5. 美化工做。點擊下圖紅圈中的那個畫筆便可進入美化工做區:
選項很是多,請讀者們自行發揮本身的美學天賦吧! 6. 排版佈局。在報表區的格式功能區有很多排版功能選擇:
當報表中有不少圖像元素時,讀者可以使用這些功能對它們進行排版。具體方法和Office,Visio中的圖形佈局是徹底同樣d的。
7. 保存發佈。Power BI保存的本地工程文件爲.pbix格式。除此以外用戶還能夠將報表發佈出去,在移動端(如平板)隨時展現已製做的報表。發佈及發佈後的使用方法會在下一章講解,敬請期待。
回到頂部
小結
總的來講,使用Power BI繪製報表最關鍵的仍是在於數據塑形步驟。只有這個步驟作好了,報表繪製起來才能駕輕就熟。 在充分掌握了數據塑形技巧後,就能夠將更多精力放在各類各樣的可視化圖形上。要注意的是Power BI除了包含很多內置圖表,還支持從微軟官網或其餘地方下載成百上千種圖表格式。
回到頂部
課後做業
因爲在以前咱們已經對數據作了初步塑形了,所以以後的報表製做將很是輕鬆愉快。接下來讀者可盡情發揮本身的想象力製做各類酷炫報表,儘可能搞清楚Power BI中全部內置圖形的繪製方法。 下面是筆者本身隨便作的一份報表,輕拍^_^:
分類: 【09】數據可視化_PBI實踐
標籤: 數據可視化, Power BI