大數據時代,數據驅動決策。處理很差龐大、複雜的數據,其價值將大打折扣。性能
那如何縮短數據與用戶的距離?讓用戶一眼抓到重點?讓老闆爲你的彙報方案鼓掌?學習
本文經過連環15關,層層深刻,傳你數據匹配圖形神功,讓數據可視化更高效。大數據
不管數據總量和複雜程度如何,數據間的關係大多可分爲三類:比較/構成/分佈&聯繫。設計
推薦下我本身建立的Python學習交流羣960410445,這是Python學習交流的地方,無論你是小白仍是大牛,小編都歡迎,不按期分享乾貨,包括我整理的一份適合零基礎學習Python的資料和入門教程。
3d
1、比較cdn
基於分類/時間的數據對比,一般需用到比較型圖表。用戶經過圖表輕鬆識別最大/最小值,查看當前和過去的數據變更狀況。教程
常見場景:哪一個地區的收件量最多?今年的收入和去年相好比何……資源
1. 條目少 – 柱狀圖it
比較條目較少時,如5個地區收件量的對比,可選用柱狀圖表示。io
△ 柱狀圖
2. 條目多 – 條形圖
當條目較多,如大於12條,移動端上的柱狀圖會顯得擁擠不堪,更適合用條形圖。通常數據條目不超過30條,不然易帶來視覺和記憶負擔。
△ 條形圖
3. 看趨勢 – 折線圖
當X軸爲連續數值(如時間)且注重變化趨勢時,則適用折線圖。
△ 折線圖
4. 擴大差別 – 南丁格爾玫瑰圖
除柱狀圖外,有無更新穎的表現方式呢?那就屬南丁格爾玫瑰圖了。
△ 南丁格爾玫瑰圖
因爲扇形的半徑和麪積是平方的關係,南丁格爾玫瑰圖會將數值之間的差別放大,適合對比大小相近的數值。它不適合對比差別較大的數值,由於數值太小的類目會難以觀察。
此外,由於圓有周期性,玫瑰圖也適於表示週期/時間概念,好比星期、月份。依然建議數據量不超過30條,超出可考慮條形圖。
5. 雙向 – 雙向條形圖
前面的例子都是單維度比較,當比較正反兩類甚至更多維度的數據時,可嘗試雙向條形圖,下圖爲各大區的重點地區的收派件量的對比。
△ 雙向條形圖
用顏色區分大區,空心/實心區分收件量和派件量,既能總體比較大區,又能詳細對比地區的狀況。
打怪升級,再加點難度。在雙向圖上再增長一個維度,以下表,比較5個地區的利潤及相應的收入和成本。請先思考一下,再下滑看推薦圖表。
△ 業務數據
△ 雙向條形圖(多維度)
經過圖形一眼就能看出深圳區的利潤低於廣州區,即便它的收入高於廣州區,但成本相對來講高於廣州區。
6. 目標達成 – 子彈圖
實際業務中,常要考察指標的達成狀況,如收入達標狀況及所處區間(優、良、差),以下表,你會怎麼可視化呢?動手畫一畫吧!
△ 業務數據
△ 子彈圖
子彈圖,由於像子彈射後帶出的軌道。相較於儀表盤,它可以在狹小的空間中表達豐富的數據信息,在信息傳遞上有更大的效能優點。
若還要比較4個季度的收入狀況,只需用不一樣顏色區分。以下圖,一眼便知第二季度表現較好,而第一季度則不佳。
△ 子彈圖
7. 性能 – 雷達圖
對於一些多維的性能數據,如綜合評價,經常使用雷達圖表示。指標得分接近圓心,說明處於較差狀態,應分析改進;指標得分接近外邊線,說明處於理想狀態。
△ 雷達圖
以上就是「比較」類的經常使用圖表,可概括以下。
此表並不是一成不變的「鐵表」,相互之間還會串聯交叉,你們還需靈活應用。
2、構成
部分相較於總體,一個總體被分紅幾個部分。這類狀況會用到構成型圖表,如五大區的收件量佔比、公司利潤的來源構成等。
1. 單層 – 餅狀圖
第1關中,對比5個地區的收件量時用到了柱狀圖。若看佔比狀況,餅狀圖更合適。
△ 餅狀圖
若是變成17個地區,會怎樣?
像不像彩色七星瓢蟲?
因此餅圖分類通常不超過9個,超過建議用條形圖展現。
除餅圖外,環形圖(甜甜圈圖)亦可表示佔比,其差別是將餅圖的中間區域挖空,在空心區域顯示文本信息,好比標題,優點是其空間利用率更高。
△ 環形圖
2. 分層 – 環形圖、旭日圖
對於管理層而言,需先把握大局和重點。好比大區負責人需一眼看到重點地區及重點分部的狀況(以下圖),如何展現?
△ 環形圖
△ 旭日圖
這個叫旭日圖,逐層下鑽看數據,大區的重點地區及相應分部的構成狀況一目瞭然。
3. 累計趨勢 – 堆疊面積圖
接下來,看看數值構成隨時間變化的案例:第一大區(包含四個重點地區)近四年收入構成的趨勢要如何可視化?本身想想,再下滑看推薦方案。
△ 業務數據
△ 堆疊面積圖
推薦方案是堆疊面積圖,能夠展示份量(地區)對於總量(大區)的貢獻,並顯示總量(大區)的變化過程。須要說明的是,地區收入的起點並不是從 y=0 開始,而是在下面的地區基礎上逐層疊加,最後組成一個總體。
4. 累計比較 – 堆疊柱狀圖
若是將上圖X軸的標籤文字(即年份)和圖例(即地區)互換(以下圖A),用來看每一個地區近四年的收入構成,用哪一個圖更合適?
△ 堆疊柱狀圖
是否是以爲均可以?那圖中 X1 有何含義?堆疊面積圖 A 方案和堆疊柱狀圖 B 方案均可以表現累加值。差異在於,堆疊面積圖的 x 軸是連續數據(如時間),堆疊柱狀圖的 x 軸是分類數據。此案例中的 x 軸是非連續的分類數據,所以用 B 方案更適合。
5. 累計增減 – 瀑布圖
若想表達兩個數據點間數量的演變過程,可以使用瀑布圖。開始的一個值,在通過不斷的加減後,獲得一個值。瀑布圖將這個過程圖示化,經常使用來展示財務分析中的收支狀況。
△ 瀑布圖
以上就是「構成」類經常使用圖表,可概括以下。
3、分佈&聯繫
經過分佈&聯繫型圖表能看到數據的分佈狀況,進而找到某些聯繫,如相關性、異常值和數據集羣。
常見使用場景:客戶的年齡段分佈?單票成本與收件量的關係?
1. 兩個變量 – 散點圖
仍以業務爲例,下圖爲全國網點的單票成本/收入分佈狀況。
△ 散點圖
單單這樣看,可能看不出什麼,若是加兩條平均線就不同了。
加了平均線,就知道哪些網點高於平均線,哪些低於平均線。但網點那麼多,總不能逐個點擊查看是哪一個大區的,給散點加上顏色後,就頗有意義了。
經過此圖,能夠看出哪些大區單票利潤較低,急需提高,好比普遍彙集於右下角的第四大區,單票收入低於平均線,單票成本卻高於平均線。
2. 三個變量 – 氣泡圖
你們都知道,網點總利潤除了和單票利潤有關,還和體量(即收件量)有關,用散點的面積大小表示收件量,就變成了氣泡圖。
△ 氣泡圖
3. 結合地圖 – 熱力圖
氣泡圖與地圖結合可演變爲熱力圖。經過熱力圖,能看到哪些網點收派件量較多,需進行資源調配。
△ 熱力圖
以上是 「分佈&聯繫」類的經常使用圖表,可概括以下:
小結
當咱們拿到數據後,先提煉關鍵信息,明確數據關係及主題,再選擇合適的圖表進行可視化。但願下圖能給各位一些參考(結合可視化專家 Andrew Abela 的圖表選擇指南,進行了簡化調整)。
數據可視化設計只要多練習、多總結,總有一天會駕輕就熟。