https://v.qq.com/x/page/j0735p6jn2e.htmlhtml
數據可視化是把模式展現出來。web
咱們一直在尋找挖掘更深層次模式的方法。算法
感受明顯是人類的圖案網絡
咱們人類可以識別的圖案,可是不能清晰地表達給計算機。app
咱們甚至從未想過要找的圖案機器學習
計算機,只把可愛的貓頭鷹的圖案展現給我看ide
在探索新數據集時,可使用咱們的分析和可視化工具包裏不一樣的工具。這些工具包括平均值和彙總統計、折線圖和直方圖,以及一個不斷擴展的自定義可視化目錄。工具
一些用 d3.js 和其餘工具製做的圖
學習
如今,我想請您把注意力放到一個相對較新的工具集上,該工具集能夠改變咱們探索大型數據集的方式。ui
一切用 t-SNE 來作!
這些工具採用機器學習爲咱們提取模式,並提供瀏覽數據的新方法。
我想在我喜歡的數據集上演示這些技術,塗鴉遊戲(Quick,Draw!)!
塗鴉遊戲(Quick,Draw!)!
要是你還沒玩過這個遊戲,那就來試試吧,它的規則很是簡單。它請您根據某個詞畫個畫,而後讓 AI 根據您的圖畫猜猜您寫的啥。
當谷歌的創新實驗室(Google Creative Lab)建立這個塗鴉遊戲(Quick,Draw!)時,他們有先見之明地保存了圖畫的匿名副本,今後改變了個人生活旅程。到目前爲止,全球有數百萬人玩過了該遊戲,同時,谷歌開源了他們創做的 5000 萬幅圖畫。這意味着,遊戲中的 300 個詞平均每一個有 10 萬多幅圖畫以供探索。
含有 300 多個詞的數據集中的其中一些
數 據
咱們仔細觀察該數據,搞清楚它是什麼,它不是什麼。
什麼、什麼時候、何地(what, when and where)
該數據集能夠用於很好的演示,由於它是這麼有趣,可是,它也是不少嚴肅數據集的表明。它具備分類數據,好比,畫的是哪一個詞和圖畫最初來自哪一個國家。咱們也有一些跟時間有關的維度,好比完成圖畫所需的時長和完成圖畫時的時間戳。
如何(how)
咱們也有造成圖畫的點序列。這是筆畫序列,它們攜帶着該數據集的大部分意義,它們捕獲了咱們做爲人類在全球範圍內表明抽象概念的方式。
它們是最難用傳統數據可視化技術來剖解的。
數據可視化
僅僅由於某些事情有困難,不意味着沒法完成。自從該數據集發佈以來,一些使人驚訝的項目應用了各類技術來呈現數據中的有趣模式。
塗鴉遊戲多久能畫好一條狗?(http://vallandingham.me/quickdraw/)做者:Jim Vallandingham
按複雜性分解數據
該項目經過利用筆畫數和繪圖時長,來探索有關複雜性和質量的問題。能夠經過交互式瀏覽這些屬性的摘要統計信息,來呈現一些很是有趣的觀察結果。
平均而言,畫鴨子比畫火烈鳥用的時間要長一些。並且,貓頭鷹老是那麼可愛。
請注意,這裏的可視化維度是筆畫數和繪畫時長,這兩個都把筆畫數序列降到個位數。這些數字給了咱們一個可控的方法來探究一下數據,可是它們本身沒法捕捉圖畫的全部特徵。
您如何畫圓?(https://qz.com/994486/the-way-you-draw-circles-says-a-lot-about-you/)做者:Nikhil Sonnad
咱們能夠不只看到咱們繪製的做品,還能看到咱們繪製的過程
本文對簡單形狀進行了深刻研究,肯定每一個圓是按順時針仍是逆時針繪製,並容許在數據集中把這個特徵考慮進去。
突出文化現象
隨後,能夠可視化該特徵,以傳達對全球各地文化差別的理解。
「咱們有無數的方法能夠巧妙地、無心識地攜帶咱們的文化:咱們繪圖的方式、用手指計數的方式、模擬真實世界的聲音,能夠舉上幾個例子。那是該海量數據集的核心所在。」
IBM 研究中心視覺 AI 實驗室的 Forma Fluens
A 表明平均值(Average)
該項目用了很多有趣的方法來可視化數據。特別是利用視覺平均值來突出文化模式。
糟糕,我忘了個人轉換器
視覺平均值的工做原理是,繪製數千微弱透明的圖,併疊加在一塊兒,以呈現出主導圖案。當咱們根據能夠合併的文化模式,按照國家來過濾圖時,效果至關好。
按照國家來劃分的視覺平均值(https://twitter.com/kcimc/status/902229612666658816?lang=en) 做者:Kyle McDonald
Kyle McDonald 在這個史詩般的推特風暴中把視覺平均值的概念推到了極致。
霜淇淋(soft-serve)在哪裏?
他充分利用小倍數來比較幾個類別的模式。
尋找尼姆(小丑魚)
這些確實給了咱們一些有趣的反思點,可是,難以深刻挖掘,由於全部細微差異的模式都被平均化給清洗掉了。
咱們平均化瑜伽姿式後,真的看不出什麼東西。國家:美國、韓國、德國、巴西
所以,若是咱們有方法來捕捉由於平均化而丟失的細微差異,以自動尋找在筆畫中的有趣特徵,並一次多維度剖解數據,會怎樣?
機器學習
進入深度神經網絡。這不是魔術,可是,它們具備一些使人驚訝的能力,而且,事實證實,咱們只有這一個網絡在塗鴉遊戲上的數據集上受過訓練。它被稱爲 sketch-rnn。
能夠在 sketch-rnn 演示頁面上自行玩耍一下
儘管和該網絡玩耍以及爲繪圖機提供有創造力的應用程序是很是有趣的,可是,更令咱們這些數據可視化人員激動的是,爲了生成圖畫而必須編碼的模式。
那麼,咱們怎樣獲得這些模式?
一種處理方式是,詢問網絡它認爲給定圖畫的可能性,就像 Colin Morris 在其《糟糕的火烈鳥(Bad Flamingos)》一文中所作的。
機器學習的背叛。火烈鳥?¯_(ツ)_/¯
處於頂部的是網絡認爲極有多是火烈鳥的圖案,而處於底部的,網絡認爲不多是火烈鳥的圖案。這給了咱們一個有趣的視角來查看數據,可是它仍然把全部的數據減小到一個維度。這是個問題,由於關於火烈鳥的一些最有趣的描述和那些明顯不是火烈鳥的詞混在一塊兒了。
若是咱們要找壞蛋火烈鳥,怎麼辦?
咱們但願有更普遍的數據視圖,一旦咱們對網絡的操做有更多的瞭解,咱們就能夠獲得。Sketch-rnn 屬於稱爲自動編碼器神經網絡家族,尋找把輸入數據「壓縮」成一個較小的表示方法,以便稍後用於生成新的輸出。
編碼器接收圖片,並把圖片壓縮成一個特徵向量
該網絡由兩部分組成,其中,編碼器網絡嘗試找出一種方法,以比輸入更少的維度來表示數據,另外一個是解碼器網絡,其嘗試只使用編碼後的數據精確地重建原始數據。
該解碼器把特徵向量做爲輸入,並輸出新(很是相似的)圖。
咱們稱編碼後的數據爲特徵向量,它是解鎖咱們技術的關鍵。
特徵向量
能夠爲網絡中的每張圖提取特徵向量,這給了咱們一種方法對圖進行數字化比較。
相似的臉有相似的特徵向量
當咱們比較它們時,相似的特徵向量就意味着相似的圖片。在咱們的網絡中,特徵向量有 128 個數字,仍是有不少要處理。所以,咱們須要一種方法來進行高維數據點之間的比較。
包含咱們全部臉的圖
幸運的是,有個叫作 t-SNE 的算法很棒,它對在高維度數據中可視化類似性頗有幫助。它不是個銀彈,可是,它給了咱們一個頗有趣的方法來探索咱們的數據。在這裏,每張圖由一個小的半透明黃點表示,該算法把相似的圖放在彼此靠近的位置以建立這張二維圖。
咱們能夠放大該圖的一小部分,查看一組相似的圖片。
做爲人類,咱們用咱們的眼睛看到這裏的圖案很清晰,是眼睛和笑臉。
咱們來看看一個徹底不一樣的集羣。
咱們能夠看到這個集羣突出了至關不一樣的圖,這是悲傷的臉圖。
古怪的維度
咱們回到研究圖的複雜性上來。咱們能夠直接檢查複雜性,而不是使用代理來處理像筆畫數或繪圖時長這樣的複雜性。
貓圖
這裏有種方法來畫一隻簡單的貓,全部這些都是一筆畫:
這是另外一種簡單方法來捕捉貓的本質特徵,儘管此次的筆畫數是 3。在這兩種狀況下,若是把這些都放在孩子眼前,他們會認出那是貓!
如今,咱們離開數字世界,進入人文領域:
這裏有一些大體相同的複雜的貓的圖,可是,很明顯,咱們在觀察鬍鬚而不是微笑:
咱們無需就此打住,咱們能夠擁有所有特徵!
所以,如今咱們正在瀏覽比單個維度更豐富的空間。讓咱們回顧一下像瑜伽姿式這樣的平均概念問題上。
瑜伽姿式圖
平均值的問題在於,它們採起單一模式的假設正態分佈。咱們能夠看到的是,表明瑜伽姿式有幾個模式,從不一樣的姿式開始。
不要忘了呼吸
人們繪製一種姿式的方式:
人們放棄的方式:
如今,我想暫停一下,退回到咱們圖片的特定數據集,確保咱們清楚在這裏發生的兩件事。
第一件事,t-SNE 是用於高維度數據可視化的經常使用技術。
採用 t-SNE 進行數據可視化 做者:Laurens van der Maaten
第二件事,神經網絡能夠處理各類數據上。在摘自 Chris Olah 的使人驚訝的文章《Deep Learning for Human Beings》的這張圖中,句向量(paragraph vector)用 t-SNE 進行可視化,以呈現維基百科文章中的主題。
所以,一般來講,用神經網絡來尋找模式並用 t-SNE 對它們進行可視化是好主意。
「特徵空間」是更數學化的術語,用來表示由咱們的神經網絡的內部表示建立的高維度景觀。咱們能夠認爲 t-SNE 幫助咱們繪製了該空間圖。
與 2 維地圖不可能真正表明咱們的 3 維地球相似,2 維的 t-SNE 圖不能把在更高維度發生的事情都展現給咱們看。
可是,它仍然能夠是咱們探索瀏覽過程當中很是有幫助的方法。
這裏,咱們已經從每一個網格單元採樣了一幅圖,不透明度表示該單元中圖的數量。
更簡單的笑臉
帶有長髮的臉、帶有短髮的臉,或者沒有頭髮的臉
咱們簡要回顧一下根據國家 / 地區代碼進行平均的想法。
經過這個視圖,咱們能夠用國家 / 地區代碼進行過濾。咱們能夠快速瀏覽一下日本電源插座的圖。
若是咱們放大來看,能夠看到主要的表明是「A 類型」的插座,具備兩個垂直的孔。與平均值中的不一樣,咱們也能夠看到一些有趣的離散值,它們看起來已經被認爲是力量舉重,而不是電源插座。
左邊:標準的「A 類型」插頭,右邊:力量舉重
咱們來看看另外一個詞:章魚,並從新審視複雜性的想法。
咱們能夠將咱們的圖過濾爲只有一筆畫的章魚圖,並從這些區域採樣。可能很容易想象在這樣的狀況下用一筆畫來繪製章魚。
若是咱們把圖過濾爲全部複雜的章魚圖,這些圖都超過 14 個筆畫:
咱們發現一個確實有趣的集羣
結 論
人們繪圖的不一樣方式就像不一樣的音符,詞的諧音和咱們已經探索過的集羣是數千個陌生人和諧共處的結果。