引用著名瑞典統計學家 Hans Rosling 的一句話:想法來源於數字、信息,再到理解。前端
分析數據的最好方式是可視化,由於可視化承載的信息密度更高,甚至能夠從不一樣維護對數據進行交互式分析。今天要精讀的文章就分析了經典可視化分析工具 Tableau:data-visualisation-made-easy。git
Tableau 是一款普遍用於智能商業的強大數據分析工具,經過不一樣可交互的圖表和儀表盤幫助你得到業務洞見。github
Tableau 提供了三種使用方式:算法
Tableau Desktop服務器
擁有 14 天免費試用的桌面版,能夠將工做數據存儲在計算機本地,若是你是學生或老師能夠得到一年的無償使用權。微信
Tableau Public工具
公開版徹底免費,和桌面版的惟一區別是,全部數據都沒法保存在本地,只能保存在 Tableau 服務器的雲端,並且是公開的。佈局
Tableau Online大數據
網頁版也徹底免費,是 Tableau Public 的網頁版。設計
安裝好 Tableau 後,第一步就是鏈接數據源。它支持鏈接本地或雲端的數據源,本地最經常使用的數據源能夠從 Excel 轉換。這裏是一份 樣例數據,包含了一個超市幾年內的銷售狀況,咱們能夠用這份數據練手。
下載好這份數據後,選擇從 Excel 導入,確認後將 Orders 表拖拽到右側區域,以下圖所示:
能夠看到,導入的數據格式有些問題,這是由於這份 Excel 文件表頭有一些描述信息干擾。勾選 Use Data Interpreter 後,能夠開啓數據解析功能,自動分析出你想要的表結構:
能夠看到表結構已經正常了,在數據清洗的過程當中,Tableau 強大的數據分析功能已經初見端倪。你甚至能夠點擊 Review ths results 看看它是如何清洗數據的:點擊後會下載一份分析 Excel,其中過濾掉的數據會被標記,自動分析出的表結構會被高亮。
在頁面最底部有幾個切換項,依次是 Data Source:數據源、Sheet:工做簿,後面跟隨的三個按鈕能夠繼續建立多個 Sheet、Dashboard、Story,這些後面都會講到。首先點擊 Sheet 進入可視化分析的工做簿:
能夠看到,Orders 表的字段已經被自動分析成 維度 度量 了。維度和度量是數據分析中重要的概念:
右側空白區域是圖表展現區域,能夠響應拖拽交互,頂部的 Columns、Rows 表示列與行,Filters 是過濾器,拖拽字段上去能夠對此字段進行過濾,Marks 是標記,Tableau 將圖表全部輔助標記功能都抽象爲:顏色、大小、文本、具體值、工具提示。舉個例子,若是將銷量 Sales 字段拖拽到大小區域,那麼任何能描述大小的圖表,都會以銷量的多少來決定大小,好比散點圖。
右上角的 Show Me 是圖表自動推薦區域,當你拖拽不一樣字段的時候,Tableau 會自動展現合適的圖表,但你也能夠點擊 Show Me 進行圖表切換。
那麼開始動手吧!首先咱們要看看大盤數據如何,也就是這家超市的總利潤、質量、銷量:
在左側維度欄目下,最後一個字段 Measure Names 表示全部度量的集合。
能夠看到,總利潤大概是總銷量的 10%。若是想展現橫向表格,將 Measure Names 從 Rows 拖拽到 Columns 便可。
Tips: 爲了方便區分,Tableau 貼心的將維度標記爲藍色,度量標記爲綠色。 同時能夠看到,Tableau 對於單指標拖拽,默認採起表格方式渲染。
接下來咱們要看每年的詳細銷量與利潤:
咱們能夠看到,不管是銷量仍是利潤都在逐年上升。接下來咱們想具體看看每月份的數據:
咱們能夠看到,銷量較高的月份分佈在:三、九、十一、12 月。注意因爲沒有對年份作篩選,這裏的每個月統計數據是整合了 2013~2016 四年份的。也就是 1 月的數據其實表明了 2013.1 + 2014.1 + 2015.1 + 2016.1 共四個 1 月份數據的總和。
接下來咱們想了解銷量與利潤增加的趨勢:
這裏就涉及到線圖拖拽交互設計了,線圖一共有三種拖拽方式。若是將一個新字段拖拽到左 Y 軸,就會在左 Y 軸多出一條線;若是拖拽到中間圖表區域,則這個字段會看成已有字段的工具提示;若是拖拽到右 Y 軸,則會自動變成雙軸圖。
從上圖中能看到,銷量增加明顯,但利潤增加緩慢,看來經營是存在必定問題的,還要繼續分析問題在哪。
咱們再看看數據按月分佈狀況,一樣右擊 Order Date,選擇 月 粒度:
上圖能夠明顯看到三個峯值出如今 三、九、11 月份,然而這段期間利潤增加幅度卻不大,能夠看出這段期間採起了薄利多銷的手段。
再從地區維度分析數據:
能夠看到東西部地區是銷量最高的區域。接下來咱們想看具體城市的銷量:
這樣就繪製了一張地區,顏色越深利潤越高,數字表示銷量。
能夠看到數值越大的區域通常顏色也越深,但這不是分析利潤/銷量性價比的最佳方式,咱們先只看到加州和紐約是銷售業績最好的區域,而科羅拉多州雖然銷量不錯,但利潤倒是負的。
上面的地圖對地形比較直觀,但要分析銷售健康度,仍是用散點圖更合適。咱們想看看城市銷量/利潤的健康度分佈:
能夠看到,遙遙領先的城市有三個,加州是銷售之王。
因爲尚未介紹到篩選條件,這裏簡略介紹一下,其實還能夠將年份拖拽到篩選條件,只看 2013 年的分佈圖,也能夠點擊或圈選其中某些點選擇排除某些城市。
如今須要進一步分析明細數據,將不一樣商品種類按年份細分,看按月的銷量,並看看這些月份的利潤如何:
能夠看到,辦公套件和科技產品業績最好,其中辦公套件在 2015 年 12 月銷量利潤雙豐收,科技產品在 2015 年 10 月與 2016 年 3 月銷量利潤雙豐收。總體來看前半年是淡季。
但這張圖沒法看到銷量與利潤性價比關係,咱們要找出利潤率最高的商品和利潤率最低的商品:
能夠明顯看到 Copiers 就是性價比之王,擁有最高的利潤,但銷量卻不是很高(顏色深度中等),而桌子是性價比最低的,利潤爲負,並且銷量不低。
除了上面基本可視化分析能力以外,Tableau 還有許多輔助功能。
在按月分佈的折線圖中,若是咱們只想看某一年的,能夠將 Order Date 拖拽到 Filters 區域,只勾選想要保留的年份:
Tablueau 這種交互等價於 Sql 中 in
語句,固然 Tablueau 還支持更復雜的條件或代碼表達式,這裏只是將更友好的篩選方式優先展現區來。
Tableau 支持任意維度之間的上卷下鑽,只要你將他們分好組。
好比將 Order Date、Order ID、Ship Date、Ship Mode 拖拽到一塊兒,成爲 Orders 組;將 Category、Sub-Category、Product ID Product Name 造成 Product 組:
咱們就能夠將 Product 直接拖拽到畫布區域,並選擇矩形樹圖,經過點擊指標上的 「+」 「-」 號進行上卷或下鑽:
上卷下鑽是順序相關的,好比 Product - Order Date 表示在產品類目基礎上,對每一個類目按日期下鑽。而 Order Date - Product 這個順序,表示在日期分佈的基礎上,對日期按產品類目下鑽,瞭解不一樣日期下每一個產品的分佈狀況。
爲使用趨勢線,先製做一個雙軸圖:
點擊 Analytics Tab,將 Trend Line 拖入 chart 中:
趨勢圖有幾種算法,好比線性,Log 或指數,所以在作趨勢分析前,首先要判斷本身的業務屬於哪一種增加階段,若是是爆發期能夠選擇指數,平穩期能夠選擇線性等等。
回到按月分佈的圖表,若是咱們想預測將來銷量和利潤的走勢,可使用預測功能:
預測趨勢有一個淺色區域,表示預測範圍。
象限圖的四象限是多維度綜合判斷的法則,然而 Tableau 支持的聚類分析能夠自動作到這些:
從上圖能夠看到,指定了 4 個分類,最右上角加州就是最突出的一組,整個聚類只有它一個元素,而畫面偏左下角的也是一類,這些是業績較差的一組數據。使用了 K 均值聚類算法,而且當你點擊右鍵查看詳細星系時,還能把組間、組內方差展現出來:
儀表板能夠將多個 Sheets 內容聚合在一塊兒並自由佈局,但儀表板最精髓的功能是圖表聯動功能:
Tableau 的全部圖表都支持點選,排除等操做,那麼點選這類操做本質上實際上是個篩選的過程,好比柱狀圖點擊了某根柱子,能夠認爲是選擇了這根柱子當前的維度值做爲篩選條件。
當一個 Sheet 做爲篩選條件後,相似點選這種操做產生的篩選就會做用於其餘同數據集的圖表,所以如上圖所示,當點擊了條形圖的某一根柱子時,上面的銷量地圖也自動作了篩選,僅展現當前選中的產品的銷量分佈。
Story 更像是 PPT,將分析後有價值或有意義的圖表組合在一塊兒,再配合上說明,得出一些結論:
如上圖所示,好比獲得這家超市的大盤數據,這通常也是數據分析的最後一步,最後生成報表。
Tableau 的交互式分析思路印證了這句話:
數字、信息,再到理解最終才能產生 Idea。咱們從拿到 Excel 導入數據集開始,數據就已經變成了維度和度量的信息,再通過主動思考,將同一份數據進行不一樣維度的展現,最終得出加州銷量最好、傢俱銷售業績最差、而桌子是負利潤的主要來源等等洞見。
經過原文對 Tablueau 功能的分析能看到,Tableau 的核心資產是具有交互式分析能力的圖表,這些圖表經過智能推薦的方式展現出來,能夠在不知道如何分析數據時找到一些靈感,真正作到以數據角度思考,圖表展現只是輔助的視覺效果。
目前國內還處於報表製做的時代,即先選擇報表再配數據集,這種使用思路是展現數據優先,而不是分析數據優先,筆者認爲緣由在於國內大部分作報表的業務場景都處於最末端,也就是數據洞見已經有了,再使用 BI 將這個洞見還原出來。而 BI 工具真正想作的仍是在前面 「分析洞見」 這一步,但願數據分析師能能夠經過 BI 平臺挖掘出商業洞見。
要走到這一步,須要國內 BI 平臺與使用 BI 的人都發展到下一階段,而這種探索式數據分析功能早在 2012 年就在國外由 Tableau 團隊實現,相信將來三年內國內必定能迎來一波探索式數據分析浪潮!
若是你想參與討論,請 點擊這裏,每週都有新的主題,週末或週一發佈。前端精讀 - 幫你篩選靠譜的內容。
關注 前端精讀微信公衆號
版權聲明:自由轉載-非商用-非衍生-保持署名(創意共享 3.0 許可證)