技術人最不應忽視可視化數據分析！

時間 2019-11-12

標籤技術不應忽視可視化數據分析简体版

原文原文鏈接

阿里妹導讀：在這個「人人都是數據分析師」的時代，阿里的同窗幾乎都在參與數據的採集、加工與消費。數據可視化做爲鏈接「加工——消費」的重要一環，其質量相當重要。優秀的可視化能促成卓越洞見，糟糕的內容則讓全部的努力失去意義。今天，阿里高級產品經理沉砂爲咱們詳細介紹數據可視化工具以及如何選擇有效圖表。服務器

1、前言

我所在的阿里企業數據化管理領域，數據可視化水平良莠不齊，尤爲是在彙報PPT和報表製做環節...今天，不深度探討具體業務問題，僅給出一些可視化通用建議。數據結構

經過文章你能夠得到的建議：工具

挑選順手的工具
加工正確的數據
選擇合適的圖表
一個實例

2、數據可視化工具

在這裏首先我想說下數據可視化追求的三個目標：準確、清晰、優雅。符合這三項的圖表被稱爲高效的數據可視化：性能

準確：精準地反饋數據的特徵信息（既不遺漏也不冗餘，不形成讀者疏漏&誤讀細節）
清晰：獲取圖表特徵信息的時間越短越好
優雅：美觀（不是酷炫）、協調（相同場景的圖表遵循統一規範）。學習

除此以外，這三項的重要性也有相對次序：準確>清晰>優雅，原則上咱們該儘可能往這三個方面靠攏。測試

問題來了，如何挑選順手的工具幫助達成目標呢？優化

其實應當分狀況來看，高效的數據可視化根據目的差別，大體分爲兩種類型（來自Cole Nussbaumer Knaflic的視頻採訪）：編碼

解釋型url

已知目標數據的特徵信息或者價值；
最大目的是傳達解釋給其餘人自身的洞察；
追求極致的細膩表達。

探索型spa

未知目標數據的特徵信息或者價值；
最大目的是本身分析探索數據；
追求快速高效的數據交互。

你們在開始動手前，不妨先想一下本身是哪一種意圖，一般狀況下魚和熊掌不可兼得，數據的靈活變換和細膩表達雖然不矛盾，但很難兼顧。這就促成了咱們可用的工具都有必定的偏向性，簡單易上手的BI工具能夠幫助咱們快速完成可視化，但有可能內容差強人意。一些專業的圖表代碼庫理論上能夠針對任何細節進行調整，可是效率和門檻存在明顯劣勢。

原則上工具沒有孰優孰劣(事實上不少工具兩方面都作得很好)，只是相對而言。筆者對常見種類的典型表明工具作了一個定性評估(我的意見)：

這裏我將Excel與Tableau高亮了出來，Tableau做爲業界最著名的BI軟件，容易上手，可視化效果也很是棒，有助於你分析探索數據。而Excel是一款被大多數人嚴重低估的產品，它能夠很方便實現各種圖表微調，畫出漂亮的數據圖。

若是你沒什麼傾向性，Excel很適合做爲你深刻研究的第一款數據可視化工具。

3、選擇有效的圖表

3.1 可視化流程

拋開一些專業理論，簡單來說，咱們製做圖表的步驟分爲3步：

選擇要傳達的數據信息
尋找可視化方法
實現方法並完善細節

對於步驟1，主要考慮數據自己的信息與做者自身的洞察信息，列清楚這些信息，有助於你選擇合適的可視化方法。下文我會講述一些經常使用的方法論知識，但不是簡單給出你要選擇柱形圖or餅圖。至於具體的圖表選用指南能夠Google一下。

3.2 視覺編碼

首先看兩張圖：

因爲使用了視覺編碼（顏色）傳達信息，人們更容易理解原數據的特徵了。

又好比普通的柱形圖，咱們使用了柱子的「高度」和「相對位置」傳達了兩組數據信息，而柱形圖每每比沒進行編碼的表格數據更容易理解。

咱們要來熟悉兩個重要概念：「視覺編碼」&「視覺通道」。若是把人類大腦看作是一個信息解碼系統，那麼可視化就是對信息(數據)的編碼過程，信息經過視覺編碼後，將內容經過眼睛傳達至大腦，大腦解碼信息並獲取知識。

那麼圖形的視覺通道有這麼多，該如何選擇合適的視覺通道映射數據呢？這裏須要經過數據的類型以及視覺通道的表現力進行綜合判斷，基礎的學術理論有詳細說明，這裏我作一下簡單介紹。

數據類型

通常咱們數據分爲「類別型」、「有序型「和「數值型」三類，蘋果、香蕉屬於類別，幾月幾號屬於有序，利潤5000屬於數值。在不少可視化商用工具的概念中，將」有序、類別型「的數據稱爲維度，」數值型「的數據稱之爲度量（指標）。

維度和度量所適用的視覺通道是有巨大差別的，例如顏色的色調適用於維度，但不適用於度量。選擇正確的視覺通道，令信息傳達更有效率。

數據通道的表現力

在浙大教授陳爲的著做《數據可視化》（陳爲沈則潛陶煜波. 數據可視化[M]. 電子工業出版社, 2013）中，使用4個指標做爲評判一個通道的表現力標準：

精確性
可辨認性
可分離性
視覺突出

深度理解這些標準，有助於咱們明白一些可視化圖表修改建議背後的深層次緣由。

這組測量數據採用科學的方法反映了一些製做經驗的合理性，好比：

一些專業設計師很是反對使用餅圖——面積&角度與人類的感知聯繫不是線性變化。
使用長度映射數據的柱形圖一般是最佳可視化選擇——長度與感知是線性變化。
常規商業統計圖表永遠不要使用3D效果——體積嚴重影響人類感知的精確性。

可分離性告訴咱們不能無限制的使用多種視覺通道，每增長一種通道來映射數據，都須要考量對已有編碼方式的影響，尤爲是尺寸（size）特別影響其餘視覺通道的效果。

咱們結合柱形圖作一個舉例，下圖的柱圖使用了寬度(size)映射了一個度量字段數據，寬度影響了長度的有效力，這兩個通道的同時使用，使得感知上有趨近面積這一通道，從而影響了總體圖表的效果。

有一次一位業務的同窗問我爲何不給柱圖的柱子加「圓角」功能，其實也是這個緣由，過分的圓角會使長度損耗精確性，對於圖表的總體表現力是破壞。

數據的視覺編碼在學術上有一個冗長的表現力優先級列表，我在這裏簡化這些概念，只給出一份推薦使用的視覺通道，理論上這些通道之間均可以組合使用，請根據實際狀況挑選最佳方案。

另一個行之有效的實踐方式是：不要從頭構建可視化的方案，請在最基礎的統計圖類型之上選擇追加視覺通道，而後不斷嘗試效果。不是什麼圖表均可以用全部通道的，例如行政地圖就沒有長度通道。

3.3 設計原則

設計圖表，好的視覺編碼是最重要的點，除此以外，對數據的篩選也是一項挑戰，過大的信息量會使圖表顯得混亂，形成認知負荷。對於JavaScript構建的可視化內容，咱們還須要關注數據交互。

認知負荷

通常的可視化文章會用墨水比這一項指標來衡量負荷的輕重。設計的不合理，會給受衆過分、冗餘或者毫無心義的信息傳達。

首先咱們要關注的是是否呈現了過多數據、濫用了視覺通道。

其次，咱們能夠利用格式塔原理精簡或者優化咱們的圖表元素，減輕認知負荷。

完整的原理一共有8項內容，這裏我主要介紹最爲重要的臨近原則、類似原則&閉合原則。

臨近原則

人們傾向物理上相近的元素爲一個總體。

我簡單打出一行點：

... ........ .......

你會很天然地認爲這是三個羣體。利用這個心理學現象，咱們構建了典型的「分組柱形圖」

也能夠用於引導用戶閱讀表格數據(來自Cole Nussbaumer Knaflic的blog)：

類似原則

人們傾向將顏色、大小或者形狀等屬性相似的對象看做一個總體（或者具有關聯性）。

這種心理學現象，疊加顏色色調的處理，很容易促成視覺突出，使咱們可以快速注意到被處理的目標數據。上文視覺編碼數「5」的舉例，即是類似原則的一個案例。

我的實踐感受顏色是應用類似原理最好的視覺通道，咱們可以經過「圖例」將圖例標註信息與畫圖區域的內容對應起來，簡單來講，也是這一心理學現象在起做用。

咱們能夠更進一步使用這一效應來幫助用戶解讀圖表

閉合原則

人們傾向物理上被包圍在一塊兒的元素爲一個羣體。

閉合原則常常被使用在標註註釋上，使用少許的「水墨」便能將目標區域的視覺突出起來，咱們拿上面類似原則的案例作進一步加工，來講明閉合原則的功效。

靈活利用格式塔原理與視覺編碼特性，是數據可視化在具體圖表之下的更爲重要的知識技巧。篇幅緣由，再也不一一列舉。

當咱們看到一副圖表，憑藉本身樸素的美學經驗指出圖表缺陷時，不妨深刻思考下，這個缺陷是違反了哪一條心理學原理，仍是水墨比（信噪比）不平衡。

3.4 經驗之談

可視化的實踐經驗太多太多，我想再着重強調一下位置和顏色的巨大影響。

位置

位置是一個豐富的概念，圖表一切的元素都處於「位置」之中，你不得不謹慎對待元素的位置屬性。不管是軸標記位置、文本說明位置、標題位置、圖例位置仍是圖形自己的相對位置。擺正它們，可使圖表不顯得信息雜亂，能夠幫助用戶更容易理解你想傳達的信息。

對齊：心理學的「連續原則」使得對齊創造一條看不見的路徑，引導人們更容易解讀信息，任什麼時候候都要注意對齊的使用。
排序：任什麼時候候，咱們都須要對數據排序。柱圖的柱子歷來都不應是被隨意擺放的，排序是對元素的位置屬性最重要的應用。沒有規律的數據表達會給用戶帶來額外的解讀負擔。
參照：位置都是相對的，若是咱們想準確解讀數據的位置，就必定須要一個參照系。這個參照系能夠是X軸Y軸，也能夠是兩個點或者柱子之間的相對參照，總之你得有一個。

顏色

顏色是最重要也是最容易被濫用的視覺編碼方式，顏色具備色調、飽和度、明度的三重變化，同時顏色的變化還牽引着人類的情緒，因此顏色的使用須要被數據可視化製做者認真考慮。在這裏再補充一些實踐上的心得：

儘可能避免同時使用紅色&綠色，色盲的同窗沒法分辨他們，這也是爲何大多數圖表庫和軟件的默認顏色的第一序列是藍色；
維度數據使用色調，度量（指標）數據使用飽和度和明度；
在保證信息完整傳達的前提下，使用的顏色越少越好；
顏色在上下文須要保持統一步調，例如以前的圖用「綠色」表明香港，下面的圖就不該該使用「黃色」或者「紅色」，「預測數據」使用綠色，「實際數據」使用藍色，保持秩序，減輕用戶認知負荷；
顏色能比其餘視覺通道更能引發注意，也就意味着更容易令人疲勞。確保你使用的顏色是「有序」的，五彩斑斕、明暗跳躍的色彩序列並不可取；
設計以前，能夠參照一些品牌設計手冊，通常被叫作visual manual。阿里幾乎每一個BU都會有相似的材料，能夠找大家的UED同窗要。使用品牌色更容易得到目標人羣的青睞。可是也不是全部的品牌色都適用，使用前應當思考下效果。
注意你使用顏色的場合，事實上因爲各國文化和宗教信仰的不一樣，相同色彩在不一樣人羣中的情感性質很不同。好比中國人喜歡紅色，可是不見得西方國家喜歡。還有醫院和金融業，也是典型的顏色敏感行業，給炒股的老闆看圖表不要用綠色做爲主色調......
放棄酷炫，咱們看數據不是爲了酷炫。

統計圖表選擇推薦

這個網上資料一抓一大把，選擇圖表前，其實更多的是要想清楚你的數據想傳達的目的。數據分析紛紛咋咋，總結起來，不外乎4個目的：對比、聚焦、概括、演繹。基於這些初始目的出發，咱們再選擇實例化它。

下圖是一張廣爲流傳的圖表建議：

英國的金融時報雜誌也出過一版建議：

下載

技術人最不應忽視的數據可視化分析中，英國的金融時報雜誌也出過的建議原圖下載地址（放大再放大就能看清字啦[調皮]）：
https://alitech-public.oss-cn-beijing.aliyuncs.com/1567064473032/shuju%20fenxi.png

4、準備數據

4.1 爲可視化調整數據結構

通常來說，製做數據圖表前，或多或少有一系列數據的採集加工環節，以集團開發同窗熟悉的ODPS爲例，簡單來說以下圖流程所示：

多數數據倉庫爲了知足必定的設計規範、維護能力與健壯性，不會容許數倉上層應用作定製化侵入設計，而各種應用所須要的數據格式不盡相同，在可視化領域，爲最後的圖表製做，對數據進行一些調整很是常見，特別是使用BI軟件進行製圖，包括不只限於如下調整：

1.行列轉換

好比爲了進行數據對比分析的簇狀柱圖，不一樣工具配合交互時，有不一樣的設置方法。須要對錶中的行列數據進行靈活轉換，以符合軟件要求。

2.可讀性轉換

原表數據中，極可能只有"ID"、"XXX編碼"、英文內容等特徵數據，爲了咱們最後的可視化加工效果，爲了圖表易於解讀，咱們須要更多的額外數據進行關聯處理，好比：

找到這張「事實表」的關聯「維表」，拿到ID背後的中文名稱、姓名等信息；
將英文翻譯成對應中文，好比將male與female轉換成「男」跟「女」；
找到「短名稱」、「暱稱」等易於識別的數據；
從時間數據字段中轉換出「季度」、「財年」、「周」、「交易日」等契合業務場景的時間類型字段。

3.針對業務場景的轉換

此類轉換須要結合必定的具體場景，通常來說，原始表只提供原始數據，具體場景提供數據轉換規則，典型的例如：

將「年齡」分段，原始表只記錄用戶的生日，後期加工成「18~24歲」、「25~30歲」等範圍字段值，這類加工有助於用戶解讀和構建可視化內容。
新顧客、老顧客。「新」與「老」都是隨着時間推移的相對概念，不太會存儲在數倉的原始數據表中，用戶須要根據當前分析的時間窗口，自助加工出新老顧客的定義字段。

4.2 剔除異常數據

原始數據中，難免混入異常數據，咱們把錯誤數據(髒數據、測試數據)和不合理數據統稱爲異常數據。這些數據不剔除，會直接影響可視化最終的展示效果，從而影響分析效果和決策效能。咱們在製做圖表前，必定要作這一環的處理。

不合理數據也是相對於具體的分析場景而言的，例如，咱們爲衡量電話營銷人員的表現設定了一個數據指標——平均每週成功3單推銷即爲優秀員工，這裏就須要結合場景將「實習期員工」剔除，或者說，將工做年限太短的樣本數據剔除。

4.3 對特殊值作精細化處理

爲了可視化效果，咱們須要關注那些含義不明的數據和「極端數據」，這些數據的存在有時候會直接影響咱們的內容展示。

空、null、0

這3個數據值是典型的「含義不明「數據，有些場景下，他們表達的意思相同，有些則表明了大相徑庭的信息。我拿」考試「做爲一個case來比喻這三者的區別：

0：小明參加了語文考試，得了0分；
空：小明沒參加語文考試；
null：小明沒有語文這門考試。

在進行可視化表達時，必定要注意對數據的準確表達。

極端數據

極端數據指一種樣本數據極端分佈不均勻的狀況，好比「100條某產品的銷量分佈，1條記錄10W，其他99條記錄在0~1000之間，「如實」反應數據的圖表將很難看出大部分樣本數據的特徵信息。須要結合業務場景，作應對處理（好比剔除&「矮化」極端數據，並作對應的文本解釋）

4.4 匯聚數據到合理程度

在使用BI工具進行可視化展現的時候，須要注意原始數據的數據量大小。一般軟件服務所在的服務器性能不是無限的，合適大小的數據量有助於取得交互展現的最佳表現。

當原始數據過大，咱們能夠根據實際場景，剔除某些字段，對數據進行匯聚。

另外，大部分工具都支持「派生字段」，儘可能在「物化」或者「實體表」階段固化這些派生數據，也有助於性能表現。對於BI軟件須要計算的派生數據而言，計算髮生的環節決定其性能表現：

計算在加速數據環節 > 計算下放計算引擎 > 內存計算 > 發生內外存交換的計算

5、一個實踐案例

本文粗淺介紹了一些數據可視化的技巧，可是遠遠談不上完整。要作到「可視化最佳實踐」還須要大量知識補充，而且加以靈活應用。

在這裏介紹一個可視化圖表優化的優秀案例，原始材料來自Cole Nussbaumer的英文blog，有興趣的同窗能夠翻翻她的博客，會獲益良多。一樣D3做者Mike Bostock也產出了大量高質量的可視化內容，很是值得借鑑。

案例：對資本預算數據的可視化改進

原始圖表

咋一看這圖也沒啥錯，可是博客做者看到了一些改進點：

Y軸標籤的可讀性
X軸未區分過去與將來的區別

其實還有其餘隱藏改進信息未指出：

上文講述過視覺通道會相互影響有效性，這裏圖例中的小正方形尺寸太小，影響了顏色的解讀，這就使得藍色的major projects和淺藍色的proposed allowance難以區分。（試想一下你在日常遇到的更極端的圖例解讀困境）；
軸的黑色標籤的顏色飽和度過高，影響了圖自己的視覺突出。（稍微淺色一點的label更容易將用戶引導相當注數據自己）；
缺乏度量數聽說明。
1. 改進版本一

這裏做者取消了圖例的點標記，將文本着色，解決了圖例識別的問題。

此刻做者遇到了困境，不知該如何進一步改進。不過可以顯而易見的是，改進版本一的水墨比太重，用了較多鮮豔的色調，而且同時使用了色調、圖案兩項視覺通道。着墨過多，但又沒有明顯傳達更多數據信息。

因而做者在改進版本二中作了各項分析，下圖將圖表黑白化去除干擾的作法很是值得學習，對於一些設計同窗可能這種作法很熟悉，色彩會干擾設計師的判斷（PD通常畫原型的時候是黑白的）