數據可視化中顏色有三種應用場景:(i)用顏色來區分數據集;(ii)用顏色來表明數據集;(iii)用顏色來突出數據。如何選擇並使用顏色在這三種狀況下各有不一樣。ui
咱們常用顏色做爲區分不具有內在順序關係的離散項目或分組的手段,例如地圖上不一樣的國家,或者某個產品的不一樣製造商,此時,咱們使用定性的顏色比例尺。這種比例尺包括一組有限的顏色集,彼此截然分明,而又異曲同工(distinct from each other while also being equivalent to each other)。後者要求任何一個顏色不該特別突出,同時顏色之間不能有明顯順序關係——就像一組遞進變亮的顏色,此時顏色所表明的項目也會被認爲有順序關係,而根據定義,這些項目應該是無序的。rest
幸運的是,咱們能夠很容易地在社區中獲取理想的定性顏色集。圖 4.1 列出了三種顏色集。值得一提的是,ColorBrewer 項目提供了一系列好看的顏色集,包括從極淺到極深的色系。cdn
顏色集示例。Okabe 會做爲本書默認顏色集,ColorBrewer Dark2 和 ggplot2 hue 也應用普遍。htm
圖 4.2 給出瞭如何應用顏色集的示範,圖上展現了 2000 年到 2010 年美國各州的人口增加率。我已經根據增加率大小對各州進行了排序,而後基於地理位置不一樣添加顏色。從圖上咱們能夠看出,同一個區域的州有着較爲接近的人口增加率。值得一提是,西部和南部城市相對於中西部和東北部有着更快的人口增加率。blog
圖 4.2: 美國各州人口增加率排序
顏色也能夠用來表明數據集,好比收入、溫度和速度。此時,咱們應該選擇連續型顏色比例尺。連續型顏色比例尺包含了一組顏色,顏色之間可以明確傳遞出(i)數據之間的大小關係,(ii)數據之間的距離。第二點意味着顏色比例尺在完整區域內須要均勻分佈。get
連續型比例尺能夠基於色相(hue)分佈(從深藍色到淺藍色),或者是多色相分佈(深紅色到淺黃色)(圖 4.3)。多色相分佈通常遵循天然界的顏色漸變關係,例如深紅色、綠色或藍色,過渡到淺黃色,或者深紫色到淺綠色。相反,若是是深黃色到淺藍色,看起來就不太天然了,不太適合使用。產品
圖 4.3:連續型顏色比例尺。ColorBrewer Blues 是一個單色變化的比例尺(從深藍到淺藍)。Heat 和 Viridis 則是多色相比例尺,分別是從深紅色到淺黃色,以及從深藍色到綠色再到淺黃色。it
連續型顏色分佈尤爲適合跟地理分佈相關的數據集。圖 4.4 中咱們展現了一副用顏色來表明數據的地圖分佈圖。這種地圖術語叫作 choropleths。圖上展現了得克薩斯州各縣年收入的中位數。
圖 4.4:德克薩斯州各縣年收入年收入的中位數。顏色從淺到深,分別表明該縣年收入中位數從低到高。
某些狀況下,咱們須要將數據集的誤差可視化爲相對於一箇中性點兩個方向的分佈。最直接的例子就是一組具備正數和負數的數據集。若是咱們用顏色來區分這些數據,那麼咱們一眼就能看出哪些是正值或負值,以及離中心點的方向和偏移量。這時候適用的顏色比例尺叫作分散型顏色比例尺(diverging color scale)。分散型顏色比例尺咱們能夠理解爲兩段連續型顏色比例尺經過一箇中心點來鏈接,中心點一般是淺色的(圖 4.5)。分散比例尺須要平衡兩端的顏色分佈,從中心點到兩側深色位置要大體相同。不然,兩側的數據集只能和中心點作比較。
圖 4.5:分散型顏色比例尺。分散型顏色比例尺由兩段連續型顏色比例尺鏈接而成,常見的分散型比例尺包括從棕色到藍綠色,從粉色到黃綠色,從藍色到紅色。
圖 4.6 展現了分散型顏色比例尺的應用,圖上展現了德州各縣白人佔比的分佈。雖然百分比確定是一個整數,可是咱們能夠基於 50% 做爲一箇中心點。高於 50% 則說明白人佔多數,低於 50% 則相反。可視化清楚地顯示了哪些縣白人佔多數或少數,或者白人和其餘有色人種大體相同。
圖 4.6:德州各縣白人分佈圖。
顏色也能夠高亮數據集中的特定元素。數據集中可能存在某些特殊的類別或值,其中包含了咱們所要講述故事的關鍵信息。咱們能夠向讀者突出相關的圖形元素來加強故事。一個簡單的作法是,將相關圖形元素用一種或一組顏色着色,讓其從其餘數據集中脫穎而出(stand out against the rest)。咱們能夠用強調色比例尺(accent color scale)來實現。強調色比例尺包含了一組柔色色系,和一組更強、更深、更加飽和的色系(圖 4.7)。
圖 4.7:強調色比例尺的示例。包含了 4 個基礎顏色和 3 個強調顏色。強調色有幾種生成來源:從已有的顏色色系中淡化某些顏色,並強化另外顏色( Okabe Ito Accent);基於灰色色系生成強調色(grays with accents);直接使用現有的強調色系(ColorBrewer)。
圖 4.8 展現了一樣的數據選擇不一樣顏色就能講述不一樣故事的示例。圖 4.2 展現了美國各州人口增加率的分佈,這裏咱們選擇 Texas 和 Louisiana,這兩個州都在南部,而且彼此相鄰,可是 Texas 增加率排在前五,而 Louisiana 則是倒數第三低。
圖 4.8:Texas 和 Louisiana 相鄰城市,可是人口增加率卻大相徑庭。
使用強調色時,關鍵的一點是基礎顏色不該該喧賓奪主。看看圖 4.8 上基礎顏色是如此的低調,這樣才能突出強調色的做用。一個常常容易遇到的錯誤就在於基礎色太過豐富,分散了讀者的注意力。不過仍然有一個簡單的補救措施,只須要刪除圖中全部元素的顏色,但保留須要突出顯示的元素。圖 4.9 給出了一個示例。
圖 4.9:田徑運動員在全部流行運動項目中最爲短小精瘦。