碰見大數據可視化:基礎研究

近日星巴克與微信推出的社交禮品功能「用星說」,能夠說刷遍了朋友圈。不管你愛不愛喝咖啡,星巴克彷佛都成爲了一種文化象徵。上班族青睞,小清新喜歡,基本上你們看到綠色的人魚標誌就能立刻認出它來。安全

雖然一直也有喝咖啡的習慣,但至今不知道星巴克菜單版上列的【摩卡】、【拿鐵】、【美式】、【卡布奇諾】等等有什麼區別。直到看到下列圖,才很直觀的瞭解到每一個咖啡類別的區別是什麼。微信

相似上圖示,針對內容複製,難以形象表達的信息,經過圖形簡單清晰地向受衆呈現出來,這種圖稱之爲信息圖ide

信息圖

信息圖自己是一個合成詞,由信息和圖兩個詞組成多稱之爲(Infographics或Infographics Graphics),在40年代的時候就開始出現,使用在報紙及新聞類雜誌方面,其中傑出的表明阿根廷的信息圖先驅Alejandro Malofiej,在1993年西班牙設立了以他爲名的主要針對信息圖表設計的Malofiej獎。大數據

在報紙、雜誌等紙質媒體中,爲了讓讀者感到新奇且直觀容易的理解,運用了大量的信息圖解的表現。優化

以下圖所示:網站

信息圖早已融入咱們的平常生活中,目的爲了創造方便溫馨的生活環境,令人們的生活變得更加更加安全溫馨。spa

爲何人們會對信息圖的傳播內容更有效呢?主要緣由是由於視覺是人類最強的信息輸入方式,人類感知周圍世界最強的方式,在Brain Rules《大腦法則》一書中,發展分子生物學家John Medina寫道:「視覺是迄今咱們最主要的感官,佔用了咱們大腦中一半的資源。」信息圖提供了一種語境的方法(Language of Context),經過展現多個維度數值而且相互比較來爲受衆提供語境,使咱們更高效的把內容反射到大腦中。設計

後來隨着技術的發展,除了傳統的紙質媒體出現了以互聯網爲主的電腦,電視,手機,大屏終端等更多類型的電子媒體。信息圖的分類也逐步劃分爲:圖解(Diagram) 、圖表(Chart) 、 表格(Table) 、統計圖(Graph) 、 地圖(Map)和圖形符號(Pictogram)這幾部分。blog

圖解Diagram – 主要運用插圖對事物進行說明接口

圖表 Chart - 運用圖形、線條及插圖等,闡明事物的相互關係

表格 Table – 根據特定信息標準進行區分,設置縱軸與橫軸

統計圖 Graph – 經過數值來表現變化趨勢或進行比較

地圖 Map – 描述在特定區域和空間裏的位置關係

圖形符號 Pictogram – 不使用文字,運用圖畫直接傳達信息

在以紙質媒體爲主的報刊雜誌的傳統行業中信息圖是對實際事物的描述, 而在互聯網行業中側更多的是對數據的描述。將數據圖形化的過程又稱之爲數據可視化。把數據,包括測量得到的數值、圖像或是計算中涉及、產生的數字信息變爲直觀的、以圖形圖像信息表示的、隨時間和空間變化的物理現象或物理量呈現出來。

咱們來看一組簡單的數據,比較下圖形和數據對於人腦感觀的差別。

這組數據包括I、II、III、IV,一共四組,每組有X和Y兩個維度。數據很簡單,但從數據上來看,你能說出這四組數據的區別嗎?

從數據上很難看出有什麼區別,由於每組數據看上去都十分的相近。下面咱們把這四組數據轉換成圖表來進行對比下。

經過圖表的比較,咱們很容易就能找出這四組數據的區別了。I組數據呈現總體離散向上的趨勢。II組數據呈現弧度上升,而後再降低的趨勢。III組數據呈現線性上漲的趨勢,但有一個點突出。IV組數據呈現Y座標不變X上升的趨勢,但有一點突出。

將數據圖形化後,大腦自然的會對圖形的不一樣點作出反應,從而更高效的理解數據帶來的意義。

咱們再來看下其餘例子:

將當前QQ的在線人數,經過可視化的方式展現給用戶。把數據置於視覺控件中,這樣用戶就能很直觀的瞭解到QQ當前使用的人羣分佈在中國是怎麼樣的,那裏的人羣分佈多,那裏的人羣少。

Eric Fischer針對Twitter 發短消息的位置和Flickr 拍照片的位置爲數據源作的名爲「看圖或說話」(SeeSomething or Say Something)的大數據可視化展現,經過簡單但大量的數據,作出很是美的數據圖展現。

這種用圖形化對數據進行描述設計的過程,咱們一般稱爲【數據可視化】。有時候,可視化的結果可能只是一個條形圖表,但大多數的時候可視化的過程會很複雜的,由於數據自己可能會很複雜的。通常流程包括【數據收集】-【數據分析&清理】-【可視化設計】,從抽象的原始數據到可視化圖像。

要作出好的【數據可視化】,拆分出來核心要先了解什麼是【數據】

數據

數據是可視化的基礎,它不只僅是數字,要想把數據可視化,就必須知道它表達的是什麼。根據Ben Shneiderman的分類,信息可視化的數據分爲如下幾類:

一維數據:X軸一個維度若是一、二、三、4 •••

二維數據:X,Y兩個二維度(一、2),(三、4),(五、6),(七、8)•••

三維數據:X,Y,Z三個維度(一、二、3),(四、五、6),(七、八、9) •••

多維數據:X,Y,Z,•••多個維度(一、二、三、四、•••),(五、六、七、八、•••)

時態數據:具備數據屬性的數據集合。

層次數據:具備等級或層次關係數據集合。

數據種類劃分是十分多的,可是這些數據都描述了現實的世界中的一部分,是現實世界的一個快照。除了類型,數據的數量級也影響這數據的表達結果。

小數據量(小於1K)展現一下靜態結果,中數據量(1K~100K)呈現數據反映的事實,大數據量(大於1M+)用於研究分析,推測結果。

咱們來看一個數據:【2017年1月28號,成都PM2.5值245】,從這個數據裏能看出什麼,可能只是會以爲當天成都空氣質量很差,咱們可能會聯想到這個樣一個畫面。

好像就不能得出什麼了。其實從單個數據上,咱們很可貴到什麼有價值的信息。因此要想發揮出數據可視化的做用,首先咱們須要大量真實的數據,知道數據的前因後果,把它做爲一個總體來理解,關注全貌對原始數據瞭解得越多,打造的基礎就越堅實,也就越可能製做出使人信服的數據圖表。

OK,咱們繼續豐富咱們的原始數據,在中國環境監測總站(http://www.cnemc.cn/) 的網站獲取到成都2017年整個1月份的PM2.5的數據。

中國環境監測總站做爲空氣質量公開的數據來源,它提供了獲取數據的API接口。經過API接口咱們能夠獲取到原始數據。

原始數據通常包含的信息都比較多,什麼PM2.5,、空氣質量指數、PM十、一氧化碳、二氧化碳、臭氧、二氧化硫等等。咱們只須要PM2.5的,因此清理數據,把其餘沒必要要的內容去掉。而後導入到Excel表中,能夠獲得咱們最終須要的數據。

有了【數據】下一步就能夠開始作數據的【可視化】。

可視化

通俗地說,可視化設計的目的是「讓數聽說話」,用圖形去講述數據的故事。可視化是一種表達數據的方式,是現實世界的抽象表達。它像文字同樣,爲咱們講述各類各樣的故事。做爲一種媒介,可視化已經發展成爲一種很好的故事講述方式。

咱們把成都PM2.5的數據,按照日期和當天的PM2.5指數作出最簡單圖形來,咱們能夠獲得下面這類的圖表來。

這類的圖用Excel很簡單就能獲得。咱們可去修改下柱狀圖的配色,但它依然只是一個簡單的圖表,而不是好的可視化做品。

那什麼是好的可視化做品呢?

好的可視化設計須要具有統計和設計方面的知識。沒有前者,可視化只是插圖和美術練習;沒有後者,可視化就只是研究分析結果。統計和設計的知識都只能幫助你完成數據圖形的一部分。

咱們須要去講述數據的故事。那PM2.5表明的是什麼,是當每天氣的狀況,因此咱們能夠用天氣的維度去講述這個故事。

咱們把成都2017年1月份的天氣照片的到,天氣好的時候天是藍色,PM2.5超標的時候是灰色。把它圖形化咱們能夠獲得這樣一個展現,能夠看出對於成都來講一個月中天氣好的時間是十分少的。

好的可視化設計能讓你有一見傾心的感受,你知道眼前的東西就是你想看到的。既能夠是藝術的,同時又是真實的。而不是直接把數據轉換成圖表,找到數據和它所表明事物之間的關係按照「數字化敘事」去作設計,這是全面分析數據的關鍵,一樣仍是深層次理解數據的關鍵。

咱們在網上能夠看到大量的優秀的數據可視化圖,這些優秀的做品都會以這種「數字化敘事」的方式,告訴用戶數據的意義。

這是哈佛作的一個數據可視化項目,將全球價15萬億美圓的大宗交易表如今這裏。地圖上的每一個點都表明 1 億美圓的進出口商品,十分的形象和震撼。

固然好的數據可視化圖都是不斷迭代優化出來的,判斷是否是一個好的數據可視化能夠按照如下的步驟去考慮。【你有什麼數據】 -> 【關於數據你想知道什麼】 -> 【數據可視化的表現方式】 -> 【你看到了什麼?有意義嗎?】。每個問題的答案都取決於前一個答案,不斷的去問本身,每一個環節有沒有問題,這樣才能作出最好的設計。

咱們一直在講數據可視化的目的是有兩個:一個是更好地分享和傳達數據信息,二個是經過設計之美有效地縮短信息的傳達。這是可視化的最根本的目的,可視化的定義在不一樣人眼中是不同的。做爲一個總體,可視化的廣度天天都在變化,可是這是一個新的領域,咱們能夠用一種全新的方式去認識世界的過程,數據可視化,改變對數據的呈現和思考方式。

參考資料

《圖解力》 – 木村博之

《數據之美》 – 邱南森

《可視化溝通》 – Randy Krun

《信息設計》 – Dopress Books

Designing Data Visualizations with Noah Iliinsky – TED演講

信息可視化研究綜述 - 河北科技大學學報

閣主點評:光有數據,有什麼用?只有靠形象的可視化展現,才能提取出數據背後的東西。本文是大數據可視化團隊的系列文章,將分享如何實現數據可視化的經驗與技巧。另外,騰訊雲還提供了專門的可視化平臺RayData,能夠幫助企業、開發者製做出高端大氣的可視化做品。

相關文章
相關標籤/搜索