【數據可視化】基礎知識貼③:錯綜複雜散點圖

散點圖

熱門圖表工具下載:

散點圖,若是學過咱們前面創意圖表系列的話,這種圖表應該很是熟悉了。大數據

散點圖,在圖表界有萬表之王的稱號。spa

這可不是我隨便封的。設計

美國權威心理學專刊《Journal of the History of the Behavioral Sciences》(行爲科學史雜誌)在2005年一篇論文中如此評價散點圖:htm

「Most versatile, polymorphic, and generally useful invention in the history of statistical graphics.」這是信息圖表史上功能最多,形式多樣,應用範圍極爲廣闊的一個偉大發明!ci

散點圖能獲此評價,絕對不是吹出來的。get

正如它的名字同樣,散點圖,能夠一堆紛亂如麻,看似無跡可尋的數據顯示出內在的關係邏輯來。產品

散點圖已經不只僅是一個圖表了,它已經演化爲一個強大的分析工具,能夠這麼說,散點圖,就是爲大數據而生的!it

下面,仍是讓咱們一塊兒回顧一下散點圖的前世此生吧。

認識散點圖

散點圖,是繪製在X軸和Y軸座標系中,能夠同時表述兩個變量的一組數據點。這些大量的數據點組合在一塊兒,造成了一些形狀,揭示了數據背後的相關信息。
散點圖

在這個散點圖中,就揭示了不一樣系列的產品中,銷售量與產品收入之間的關係模式。

散點圖溯源

提及散點圖的來由,若是你讀過咱們啓視錄系列前面幾篇的話,必定會想到一個名字:William Playfair。這是信息圖史上一個神通常的存在,他將折線圖、餅圖還有條狀圖帶到了咱們這個世界上。

但是,這一次你猜錯了。

散點圖不是普萊費爾發明的。

事實上,散點圖的出現如同它的名字同樣,散亂不堪,沒法理出一個有序的線索出來。

其實,對於散點數據的的視覺化應用,由來已久。好幾百年以來,人們一直將這些點放置在地圖,或者笛卡爾座標系中。後來人們逐漸意識到,當這些數據以不一樣參數,放置在直角座標系中,不少鮮爲人知的故事會偷偷地浮現出來。因而,散點圖逐漸開始流傳開來。

因此只能這麼說,散點圖,是廣大數據民工在長期的生產實踐中,經過不斷的探索和研究,最終發明出來的。

而William Playfair爵士之因此會與這個偉大的發明擦肩而過,主要是由於,他發明的圖表都是基於時間序列的,而散點圖卻再也不拘泥於時間這個基本的變量。

散點圖從一開始的默默無聞,到最後轟動科學界,直到最後加冕圖表之王,其實也就是百十年的事。可是經過散點圖帶來的不少偉大的發現,則完全改變了咱們的世界觀,推進了科學的發展。

1905年,丹麥科學家Danish astronomer Ejnar Hertzprung,在將一些恆星的亮度等級(絕對亮度}和他們的顏色(按光譜從藍白到紅色排列)進行對比的時候,他注意到這其中彷佛有着某些相關性。可是他一直沒有找到其中的奧祕。

直到1913年,美國天文學家Henry Norris Russell獨立發表論文,闡述了這個改變咱們認知宇宙的新發現。
散點圖

沒錯,正是經過散點圖,他將恆星的按光譜和亮度兩個參數進行排列分析後發現,從高亮度低光譜(左上)到低亮度高光譜(右下)造成了一條明顯的趨勢線,而在左上角,還有一團比較密集的數據。

Henry意識到,這條趨勢線,或許正揭示了恆星從藍白色的新星到紅色的老星的一個演變的過程,也就是說,他發現了恆星一輩子的祕密。而左上角的那些數據,則是由一些暮年的紅巨星所集合而成。

這就是後來咱們所熟知的恆星的一輩子:原恆星—-主序星—-紅巨星—-白矮星—-黑矮星

這是從新繪製的由2200顆恆星數據所組成的Henry Norris Russell散點圖,咱們的太陽目前大體位於光序1(豎軸)色譜1.0左右的位置上,主序星階段,正值壯年!

關於更多的散點圖帶來的偉大發現,你們能夠到這裏圍觀:http://www.datavis.ca/papers/friendly-scat.pdf我就再也不多說了。

散點圖的應用

顯而易見,散點圖是一種應用很是普遍的圖表,並且具備其餘圖表所沒有的獨特優點。

不像其餘圖表的單一特性,散點圖不光能夠顯示趨勢,還能顯示集羣的形狀,以及在數據雲團中各數據點的關係——這在大數據應用中是極爲重要的一點。

不管是探尋肺活量與自由潛水的深度的關係,仍是研究地震強度與持續時間之間的關聯,或者對比不一樣部門利潤與支出的數據,咱們均可以用散點圖來進行不一樣方位解讀。

下面就是散點圖所常常表現出來的幾種趨勢:
正相關
散點圖
負相關
散點圖
無關
散點圖
線性相關
散點圖
指數相關
散點圖
離羣值
散點圖

這裏要注意的是,並非全部的相關關係都是簡單的因果關係,要注意其餘變量的存在以及對數據的影響。

散點圖的基本原則

對於散點圖,咱們如今已經有了大體的一些瞭解,如今讓咱們來看看散點圖設計中的一些基本原則吧

Y軸從0開始
散點圖

這個應該是咱們反覆強調的了,Y軸從非零開始的話會截斷數據,形成誤讀。

包含多重變量
散點圖

經過改變數據點的大小和顏色,來表示數據值的區別。

添加趨勢線
散點圖

趨勢線能夠用來顯示數據變化的趨勢。

不要添加兩條以上的趨勢線
散點圖

太多趨勢線,反而攪亂視線。

來源:InfoVision

瞭解更多數據可視化相關資訊

相關文章
相關標籤/搜索