可視分析使得人們可以分析大量的信息,爲了支持複雜的決策和數據探索。人類做爲一箇中心的角色在知識產生的過程,從片斷的證實到可視數據分析。儘管前者的研究提供了框架來產生這些過程,他們的範圍一般聚焦很是窄。因此他們不包括不一樣等級的不一樣視角。本文提供一個知識產生的可視分析模型。將這些分離的框架結合到一塊兒。但是。仍然保留曾經先進的模型(好比.KDD過程)來描寫敘述整個可視分析流程的個體片斷。爲了測試這個模型的有效性,用一個現實世界的可視分析系統來比較這個模型,證實當開發和評估這個系統。這個支持產生流程模型提供了一個實用嚮導。這個模型是用來有效對照不一樣數據分析系統。此外,這個模型可以提供一個公共語言與描寫敘述的可視分析流程。研究者們可以用此來進行交流。算法
最後。這個模型反射出將來可以着手研究的領域。網絡
在VAST’2014的一篇論文中[1]。來自德國康斯坦茨大學數據分析和可視化組(Data Analysis and Visualization Group, University of Konstanz)的Sacha等人。提出了一種基於可視化分析的知識產生模型。這個模型保留了過去的挖掘模型,如KDD模型,也從各角度、各層次更加全面地闡述了人類利用計算機的可視化分析系統產生知識的過程。app
Sacha等人提出了一個可視分析模型,具體的分析了從數據到知識的產生過程,以及每個過程當中所涉及到的理論與方法。框架
如圖1所看到的。知識產生模型包含計算機和人兩部分,左邊的計算機部分表示一個數據的可視化分析系統,右邊則是人類驗證若是的知識產生過程,雲狀圖案表示數據分析時要求人機間密切交互。在計算機部分中,數據被繪製爲可視化圖表。同一時候也經過模型進行整理和挖掘。可視化圖表既可以顯示原始數據的特性,也可以顯示模型的結果。工具
用戶也可以基於可視化圖表來對模型進行調整。指導建模過程。oop
數據(Data)post
是一切分析的開始。用來結構化、半結構化、非結構化地描寫敘述現象,在一次分析中附加的數據可以經過必定方法本身主動或人工生成,稱做metadata。就是「關於數據的數據」。spa
模型(Model)設計
模型可以簡單理解爲一個子集數據的屬性或者複雜數據挖掘算法的統計描寫敘述。KDD過程,包含的範圍從對數據作最簡單的統計分析,到複雜的數據挖掘算法,是從數據集中識別有效、可理解的模式的過程。模型服務不一樣的可視分析目的。可以經過計算單一的數據來解決簡單的分析任務。blog
可視化(Visualization)
而還有一個從數據到知識的路徑就是可視化技術。可視化使分析員直觀地觀察到數據間的關係。在可視分析裏,可視化是基於本身主動的模型。好比。聚類模型用來可視分組數據。相同,一個模型也可以被可視化,好比。一個盒形圖展現數據在一維上的分佈。
一個模型的可視方法依賴於可視的狀態。好比,在語義縮放(semantic zooming),一個可視化可能用不一樣的模型屬性在縮放等級。Visualization通常用做分析與可視分析系統之間的基礎接口。由於理解模型一般需要不少其它感知的付出。
探索循環(Exploration Loop)
探索循環描寫敘述分析師同一個可視化分析系統進行一系列互動行爲(Action),如數據準備、創建模型、操控可視化結果等,觀察和探索由此產生的反饋,並得到發現(Finding)。
分析師的行爲應當遵循分析的目標而展開。
驗證循環(Verification Loop)
驗證循環是在探索循環基礎上證明或者提出新的若是。
分析師在觀察階段獲得發現的結果後。深刻分析得到現象背後的推測(Insight),會產生新的若是(Hypothesis)併成爲進一步調查的動機。推測並非知識,而是由弱證據獲得的感知等待進一步若是驗證。
知識產生循環(Knowledge Generation Loop)
分析師不斷造成和驗證若是。當證據足夠可信時這一系列的洞察和推測便衍生出了知識(Knowledge)。
知識相同會影響所提出的新若是。
在探索循環中,人們經過模型輸出和可視化圖表尋找數據中可能存在的模式,基於此採取一系列行動,好比改變參數,去產生獲得新的模型輸出和新的可視化圖表。這樣作的動機在驗證循環之中:人們經過模式洞察到數據的特色。產生可能的推測。這些推測的驗證正是基於探索循環中的行動。最後。在驗證循環之上有知識循環,不斷的收集驗證循環中已被驗證的推測,總結爲知識。
圖 1.可視分析中的知識產生模型
本模型的提出是創建在已有的各類模型的基礎之上的,如圖2所看到的。好比,以前的信息可視化流程圖描寫敘述了怎樣從數據產生可視化圖表,數據挖掘流程圖則描寫敘述了怎樣對數據進行預處理和建模並終於獲得分析結果。以前的交互步驟模型描寫敘述了人在分析過程當中的評價、目標產生和運行步驟,意義構建模型則描寫敘述了人在整個分析過程當中對問題理解的加深。
它們在本模型中被分解爲三層循環。此外。衆多的交互詞彙系統的描寫敘述了探索循環中的行爲。
圖 2.本模型和已有模型之間的關係
做者利用本模型對一些實際的可視分析系統進行了評價和比較,如圖3所看到的。
Jigsaw是一款免費的文本可視分析系統[2]。它可以讀入文本數據,本身主動提取實體,創建主題模型,所以強於建模。此外,它提供了一系列可視化圖表來顯示文本的各類特徵,所以也強於可視化。
它的不少可視化,好比文件聚類視圖,是基於主題模型的,所以可以算是對模型的可視化。用戶可以在多種視圖之間切換,改變各類視覺特性,所以它很是好的支持了探索循環。此外,它還提供了tablet視圖。贊成用戶記錄本身的發現。並整理歸類。提供了必定的驗證循環支持。然而。Jigsaw不支持對原始數據預處理,也不太支持模型參數選擇。
Jigsaw是一款利用文本挖掘算法創建各類文檔可視化視圖的軟件,可生成文檔的聚類圖、時間軸、詞樹圖等。
建模是系統依據任務本身主動完畢的,併產生相對模型的可視化圖表,用戶可自由調節圖表的屬性和外觀,是一個典型的可視化分析系統。
圖3 Jigsaw中的可視化結果。(a)中表示將人名和文本關聯,(b)中表示文本聚類圖,(c)Tablet界面
Jigsaw十分支持模型中提出的所有行爲。
在人類的探索循環中,Jigsaw提供各類專業的可視化結果,而用戶可以利用這些工具探索某一數據集,如用戶依據他們的需要改變聚類的簇數。驗證循環同探索循環緊密鏈接。引導用戶由發現產生推測,而這些發現又可用來驗證明際的若是。
Jigsaw中提供tablet界面,贊成用戶整理和概括髮現,有助於結構化地衍生出推測。知識產生循環取決於用戶,因爲涉及到相信和推理的概念。而知識又是創建在驗證基礎上的。Jigsaw形象化的分析過程也有助於知識的產生。
這個模型將人類和計算機做爲一個循環。在產生知識的過程當中兩者不可或缺。利用模型可以評估分析系統的功能和效果,改進系統;在模型中探索循環是知識產生的基礎。對知識生態系統改進的重心應放在人機交互,如本身主動發現意外的結果特徵和複雜模型的可操做性;而在知識圈中間位置的驗證循環,要求可視化的分析系統設計有效組織和總結結果的功能;對於最末端的知識循環,人類設計和依賴系統提供不一樣的視角
Weka是一款免費的數據挖掘系統 [3],它贊成用戶對數據進行一系列的預處理。好比數據刪除、離散化、文本分詞等等,同一時候支持大量的數據挖掘算法。涵蓋了各類分類、聚類、關聯規則挖掘模型。但是該系統支持的可視化至關有限。好比顯示散點圖矩陣,或者顯示決策樹結果、顯示神經網絡結構。
另外。用戶探索僅限於更換預處理方法和更換模型。功能較爲簡單。
用戶沒法整理本身的發現,所以該系統對驗證循環的支持並很差。
Tableau是一款商業化的可視化系統 [4]。它贊成用戶經過美麗的UI來預處理數據,經過簡單的拖拽來設計各類可視化圖表。
但是一直以來。它支持的模型很是有限,直到今年,Tableau支持了R語言,它才真正用於建模功能。
Tableua支持靈活的數據探索。它還支持spreadsheet和storyboard等強大的功能,可以生成MLV視圖和相似powerpoint的演示界面。這些都是對驗證循環的支持。
nSpace是一款商業化的文本分析系統 [5]。儘管它對數據預處理和數學模型的支持很是弱,但是它提供了多種可視化圖表顯示數據的不一樣特徵。這些圖表可以較好的支持數據探索循環。最爲不同凡響的是。nSpace提供了sandbox界面用於組織用戶的發現,並生成結果報告。該功能比Jigsaw的tablet和Tableau的storyboard更爲強大,能較好的支持驗證循環。
圖 4.利用本模型對不一樣的可視分析系統進行評價和比較
做者也談到,本模型具備一些侷限性,比方未考慮多個分析人員之間的協做與交流,未考慮不一樣可視分析系統之間的切換,未考慮分析人員和領域專家、政府官員之間的溝通,未考慮動態變化的流數據。這些問題可以進一步研究。
基於此模型。做者展望了將來可視分析的研究方向。好比。在探索循環中,研究者可以不少其它的考慮經過可視化與數學模型進行交互的技術。也可以考慮怎樣引導用戶高速系統的發現數據中的模式,或者怎樣本身主動檢測模式。在驗證循環中,研究者可以怎樣保存之間的探索結果。以方便回溯,驗證其可靠性。研究者可以考慮怎樣組織不一樣的探索結果。輔助用戶產生若是。甚至本身主動產生若是。
在知識發現循環中,研究者可以作的比較少。
畢竟。知識發現僅僅在人腦中。但研究者可以提供不少其它更方便的可視化視圖和數學模型,方便用戶從多個角度考慮同一個數據、同一個問題。這樣,或許用戶更easy終於獲得實用的知識。
[1] Dominik Sacha, Andreas Stoffel, Florian Stoffel, Bum Chul Kwon, Geoffrey Ellis, and Daniel Keim, Knowledge Generation Model for Visual Analytics, IEEE Trans. Vis. Comput. Graph. (VAST’14), 2014, to appear.
[2] C. Görg, Z. Liu, J. Kihm, J. Choo, H. Park, and J. T. Stasko. Combining Computational Analyses and Interactive Visualization for Document Exploration and Sensemaking in Jigsaw, IEEE Trans. Vis. Comput. Graph., 19(10):1646–1663, 2013.
[3] Weka 3: Data Mining Software in Java, http://www.cs.waikato.ac.nz/ml/weka/
[4] Tableau: Visual Analytics for Everyone, http://www.tableausoftware.com/
[5] nSpace: Web 2.0 Analysis, http://www.oculusinfo.com/nspace/