大數據可視化的途徑

時間 2019-11-19

標籤數據可視化途徑简体版

原文原文鏈接

人們預期數據可視化過程會繼續發展，也許更多的是藝術和科學的混合，而不是數字計算技術。數據庫

顯示結果編程

數據可視化是指以圖形或圖表格式經過人工或以其餘方式組織和顯示數據，以使受衆可以：瀏覽器

更清楚地查看分析結果網絡
簡化正在使用的數據中的複雜性框架
瞭解並掌握正在使用的數據製做方法編程語言

可視化並非一個新的概念工具

這種使用圖片(排版、色彩、對比度和形狀)來傳達或理解數據的概念並非新鮮事物，從17世紀的手工描繪地圖和圖形到十九世紀初發明的餅圖都是這種形式。oop

現在，計算機能夠用來快速處理大量的數據，使可視化更具價值。展望將來，人們能夠預期數據可視化過程將會繼續發展，也許更多的是一種藝術和科學的混合，而不是數字計算技術。性能

即時知足學習

數據可視化演進過程的一個使人興奮的例子是，業界如何將數據可視化過程轉移到生成和發佈圖表和圖形的過程當中，供觀衆進行審查和仔細考慮，從而設定了交互式可視化的指望。

經過交互式的可視化，人們能夠更多地使用數據可視化的概念，進一步利用技術讓觀衆與數據交互，爲用戶提供自助服務能力，以實時(或接近實時)交互式地深刻到生成的圖片、圖表、圖形(訪問更多或特定的細節)來改變顯示的數據(多是不一樣的時間框架或事件)以及如何處理和/或呈現(可能選擇條形圖而不是餅圖)。這使可視化更加有效和個性化。

人們能夠經過使用數據驅動文檔(D3)的典型網絡瀏覽器在各類示例中介紹顯示大數據分析結果的主題。D3容許將預先構建的數據可視化應用於數據集。

數據驅動的文件

數據驅動的文檔在開放社區中被稱爲D3。D3是一個採用JavaScript編寫的開源庫。其目標是容許使用標準網頁瀏覽技術(如HTML或CSS)輕鬆地處理基於數據的文檔。它的附加值是爲用戶提供全面的功能，而無需本身構建或綁定到某個專用的框架中。

這些庫組件爲用戶提供了優秀的大數據可視化工具和DOM操做的數據驅動方法。 D3的功能風格容許用戶從新使用已經構建的庫代碼模塊(或者其餘已經構建的代碼模塊))來添加用戶須要或想要(或不想要)的任何特定功能。這就建立了一種能夠變得像用戶想要的那樣強大(或者有時間去作)的手段，爲其數據可視化提供一個獨特的風格，操縱並使之互動，這正是用戶想要或須要的。

儀表板

正如前面所討論的，事實上人們天天都在收集和積累大量數據，而組織出於各類緣由依賴這些信息。

這些數據使用各類報告格式，包括數據儀表板。就像全部的事情同樣，人們對於數據儀表板的定義有各類各樣的擔憂。

例如，A.Chiang寫道：「儀表板是實現一個或多個目標所需的最重要信息的直觀展現。在一個屏幕上合併和排列，以便一目瞭然地監視信息。」

不管其定義如何，若是設計和建造得當的話，任何儀表板都有能力爲受衆提供及時而重要的信息，供決策者使用。

儀表盤以相關的、簡明的、深思熟慮的方式(不只僅是工做簿或電子表格中的可視表示的集合)呈現數據是相當重要的。而儀表盤上的數據顯示過期和錯誤，那麼由此作出決定可能會致使災難。

經過儀表板能夠演示解決方案的工做示例，而這樣的示例基於使用Tableau的實時儀表盤格式，基於大數據分析有效呈現出結果。

Tableau是一種商業智能軟件，旨在幫助人們查看和理解數據。Tableau不只僅是一個代碼庫，也被認爲是一組或一系列交互式數據可視化產品。

Tableau的結構可使人們可以未來自多個來源的多個數據視圖組合到一個高效的儀表板中，從而爲數據消費者提供更豐富的看法。Tableau還能夠處理各類格式(包括結構化和非結構化)的數據，而且能夠處理大數據量(多是TB字節或PB字節，或數百萬或數十億行代碼)，從而將大數據轉化爲針對目標受衆的有價值的可視化結果。

爲了解決當今大數據世界的速度問題，人們可使用Tableau直接鏈接到本地數據中心和雲端的數據源，或者將數據導入快速內存性能。

Tableau的另外一個目標是自助服務分析，用戶能夠經過對話選擇數據來提問(實時模式而不是批處理模式)使用簡單的點擊分析直觀地挖掘大數據，並有效地發現數據集或數據集中可能存在的理解和機會。

Tableau提供的一些使人興奮的功能包括：

實時拖放聚類分析
交叉數據源加入
強大的數據鏈接器
移動啓用
實時的地區或區域數據探索

異常值

異常點是一個與數據中其餘觀測數據點相距甚遠或極大不一樣的觀測點。儘管異常值一般只表示大約1%到5%的數據，但當企業處理大數據時，調查甚至只是查看數據的1%到5%是至關困難的。

調查和決定

人們能夠看到，異常值能夠被肯定爲非影響力的或者對數據可視化所要處理的點很是有影響力。

作出這一決定的行爲或過程對於企業的分析很是重要，但處理大數據的大容量、多樣性和速度也是很是困難的。例如，幫助作出這個決定的一個基本步驟是測定樣品的大小，這是一個計算異常值與數據樣本大小的主要數學過程，當數據量十分龐大時，這不是一個簡單的任務。

人們可使用Python高效地識別和處理大數據異常值(以及其餘一些數據集異常)。Python是一種腳本語言，它很是容易學習，由於它的編碼語法很是相似於英語。

Python是2016年9種最受歡迎??的編程語言之一，由Bouwkamp公司提供，Python被列在頂級的按需編程語言中。

Python誕生於1989年，由Guido van Rossum建立，實際上Python的使用很是簡單，但業界也認爲其功能很是強大，速度快，能夠在任何環境中運行。

根據定義描述，「開放源代碼Python是世界各地許多公司和機構的生產力，軟件質量和可維護性成功公式的一部分。」

業界對利用Python語言進行數據分析和大數據分析的興趣日益濃厚，並且它是數據科學家平常工做的選擇，由於它提供了一個庫，其實是一個標準庫(甚至有些專一於大數據，如Pydoop和SciPy)來完成幾乎全部人須要或想要處理的數據，包括：

自動化
創建網站和網頁
訪問和操做數據
計算統計
建立可視化
報告
創建預測和解釋模型
評估額外數據的模型
將模型整合到生產系統中

最後要說明的是，Python的標準庫很是普遍，提供了一系列內置模塊來提供對系統功能的訪問，以及標準化的解決方案來解決平常編程中出現的許多問題，這是探索處理大數據離羣值和相關處理的一個明顯選擇。

操做智能

操做智能(OI)是一種分析方法，試圖經過(一般是機器生成的)操做或事件數據來提供可視性和洞察力，實時運行鍼對數據流饋送的查詢，產生做爲操做指令的分析結果，能夠經過人工或自動操做(將數據集轉化爲價值的明確例子)讓組織當即執行。

複雜的操做智能(OI)系統還提供了將元數據與數據中發現的某些度量、流程步驟、渠道等相關聯的能力。有了這個能力，就很容易得到額外的相關信息，例如，機器生成的操做數據一般都具備惟一的標識符和結果或狀態代碼。這些代碼或標識符對於處理和存儲多是有效的，可是並不老是易於理解。爲了使這些數據更具可讀性(所以更有價值)，能夠將更多用戶友好的附加信息與數據結果相關聯 – 多是以狀態或事件描述的形式，或者多是產品名稱或機器名稱。

一旦瞭解將基本分析和可視化技術應用於操做大數據的挑戰，數據的價值能夠更好或更快地實現。人們將運用Splunk智能化操做來展現操做或大數據評估解決方案的工做示例。

那麼，什麼是Splunk?Splunk開始是一種「Google for Log」文件。它還有更多的功能…它存儲全部的日誌，並提供很是快速的搜索功能，大體就像Google爲互聯網作的同樣…

Splunk軟件是幫助實現隱藏的價值在機器生成的一個很好的工具，使用Splunk，企業能夠在一個地方收集、索引、搜索、分析，以及可視化全部數據，從幾乎任何地方提供一種整合方法，能夠從大量機器數據中組織和提取實時信息。

Splunk將數據存儲在文件中，爲文件分配索引。 Splunk不須要在後臺運行任何數據庫軟件來實現此目的。Splunk調用這些文件索引器。Splunk能夠對任何類型的時間序列數據(具備時間戳的數據)進行索引，使其成爲大數據操做智能(OI)解決方案的最佳選擇。在數據索引期間，Splunk會根據其標識的時間戳將數據分解爲事件。

儘管使用簡單的搜索術語(例如機器ID)，Splunk也提供了本身的搜索處理語言(SPL)。 Splunk SPL(將其視爲SQL類型)是一種很是強大的工具，用於搜索大數據並對特定場景中的相關內容執行統計操做。