論文傳送門算法
做者
北京大學機器感知與智能教育部重點實驗室服務器
- Siming Chen
- Xiaoru Yuan
奇虎360架構
- Zuchao Wang
悉尼科技大學ide
- Jie Liang
摘要
在分析人類行爲時,咱們須要從多個數據源構建人類行爲,例如軌跡數據、交易數據、身份數據等。咱們面臨的問題是數據衝突、分辨率不一樣、數據缺失和衝突,這些問題共同致使了時空數據的不肯定性。數據中的這種不肯定性致使用於分析人的行爲、模式和異常值的可視化分析任務的困難甚至失敗。然而,傳統的自動化方法不能解決這種複雜場景中的問題,在這種場景中,不肯定和衝突的模式沒有很好地定義。爲了解決這些問題,咱們提出了一種半自動的方法,供用戶解決衝突和識別不肯定性。總的來講,咱們總結了五種類型的不肯定性和解決方案來執行行爲分析任務。結合不肯定性感知方法,咱們提出了一個可視化分析系統來分析人類行爲,檢測模式和發現異常值。來自 IEEE VAST 挑戰賽 2014 數據集的案例研究證明了咱們方法的有效性。測試
Introduction
面對異構數據,咱們能夠採用可視化分析來了解人們的行爲,發現模式並檢測異常事件。優化
結合不肯定性感知方法,咱們提出了一個可視化分析系統,用於從異構數據中支持人類時空行爲分析。編碼
在本文中,咱們報告了咱們在可視化空間數據分析中識別的不一樣類型的不肯定性,並演示了咱們如何使用半自動方法對其進行優化。通常來講,咱們的方法是數據驅動的可靠性改進方法。lua
在整個工做中,咱們使用了來自 IEEE VAST 挑戰賽 2014 迷你挑戰賽 2 的虛擬數據集。結合不肯定性感知方法,咱們提出的可視化分析系統可以總結一組人的通常運動模式,並幫助分析師檢測異常事件,具備各類可視化視圖和多個過濾器。url
Contributionspa
- 半自動不肯定性細化方法: 咱們總結概括了五種常見的不肯定性,並針對每種不肯定性提出了新的解決方案。爲了解決定義不明確的不肯定性問題,咱們結合了用戶的能力和算法方法,並容許人蔘與分析循環。
- 感知不肯定性的視覺分析系統: 咱們開發了一個全面的視覺分析系統,結合了非肯定性感知方法和多個協調的可視化視圖,從而爲理解人類行爲和檢測有趣的模式和異常值提供了完整的解決方案。
Related Work
行爲分析一般側重於模式提取,關係識別和人羣聚類
之前在時空視覺分析方面的工做主要是針對規則密集採樣的全球定位系統數據。咱們提供了時空聚合和過濾技術,更重要的是,咱們處理異構的時空數據,這些數據自己就具備衝突和不肯定性。
在行爲分析中,數據一般是不完美的,包含許多不肯定性。數據中存在各類錯誤、數據丟失和衝突,在進行任何分析以前,都應該正確處理。
Uncertainty taxonomy
這五種不肯定性來源於對異構時空數據的分析。第一,信息缺失直接致使識別對象的信息缺失。第二,衝突表示異構數據集中存儲了衝突的描述,以表示相同的已識別對象。例如,咱們可能會發現同一我的同時出如今兩個不一樣的地點的狀況。這種不肯定性是由數據衝突形成的。第三,不肯定性中的粒度問題是數據集對象描述的分辨率不一樣。對於一個事件,咱們可能同時擁有日級和秒級描述。第四,多重價值致使不肯定性,由於缺少區分價值的信息。例如,在一個位置,有多個商店。從具體位置來看,僅根據空間信息很難肯定確切的商店。最後,錯誤下降了數據的可信度,並致使不肯定性。例如,全球定位系統軌跡記錄可能會由於記錄的傳輸、編碼和解碼過程而出錯。經過四個對象的五種類型的不肯定性,咱們用應用數聽說明了表明性的不肯定性,並在下面的部分給出了相應的解決方案。
Uncertainty illustration
在本節中,咱們首先描述咱們使用的數據。而後介紹了數據融合方法和可視化分析系統,這是不肯定性處理和分類的基礎。
- POI Uncertainty
- Temporal Uncertainty
- Transaction Attribute Uncertainty
- Location Uncertainty
- Identity Uncertainty
Visual analytics system
咱們的視覺分析系統將不肯定性感知方法與徹底交互式的探索功能相結合。咱們的系統可使用戶從異構的時空數據源中找到可靠的信息、檢測模式和發現問題
用戶能夠應用時空過濾來探索數據。地圖視圖顯示了 poi 和 GPS 軌跡的位置(圖 9a)。每一個興趣點由一個多邊形表示,顏色編碼興趣點類別。每一個 GPS 軌跡都表示爲一條折線。用戶能夠在地圖上應用空間過濾器來選擇經過單個或多個區域的 GPS 軌跡。時間線視圖顯示了全球定位系統記錄的時間分佈(圖 9b)。用戶能夠在時間軸上應用時間過濾器來選擇單個或多個時間範圍內的 GPS 軌跡。在探索中,用戶能夠在一個時間範圍或時間段內過濾興趣點,以進行進一步的模式分析。
實體視圖顯示了僱員的名單(圖 9c)。用戶能夠直接選擇列表中的人。詳細事件視圖顯示了一名員工的整個事件序列(圖 9d)。數據描述部分已經提到了該功能。用戶能夠首先分析事件序列中的基本平常模式。基於導出的規則模式,爲每一個單獨的運動提供自動異常檢測(圖 7)。然而,因爲人們會有諸如去超市或公園等特殊事件,自動方法會產生許多錯誤警報。這不必定是可疑事件。所以,咱們使用戶可以在空間、時間和事件視圖中探索人的行爲。基於異常提示,用戶能夠發現可疑事件,包括深夜外出、工做時間缺勤、卡被盜事件等。此外,咱們支持多我的的行爲比較,以得到更復雜的模式發現。事件時間線顯示多個員工在選定時間範圍內的事件子序列(圖 9e)。主要用來比較/關聯不一樣人的行爲。結合其餘觀點,咱們發現一些有趣的行爲,如聚會、汽車-人與人之間的分享和其餘不正常的關係等。
基於感知不肯定性的視覺分析系統,用戶能夠經過交互式探索找到可靠的模式和事件。
System implementation
咱們的系統是在客戶-服務器架構下開發的。客戶端用 HTML5/Javascript 構建,服務器端服務用 Python 和 MongoDB 實現。
Evaluation
咱們從兩個方面評估了咱們提出的感知不肯定性的可視化分析方法。首先,咱們將咱們的方法與純計算方法進行比較,並說明咱們的優點。其次,咱們用一個案例來講明用戶如何在處理不肯定性後成功地找到事件。
咱們討論了咱們的方法與假定的不肯定性挖掘方法的比較部分。一開始,咱們使用純自動算法,發現有幾個問題。特別是,對於某些狀況,純算法沒法工做,由於它須要高水平的人類判斷。
- POI detection.
- Temporal error and mismatching
- Transaction attributes missing and conflicts
- Location conflict, shift and errors
- People information identity
case study - people behavior analysis
Discussion
咱們提出了一種感知不肯定性的可視化分析方法來處理多個時空數據源。經過交互和算法方法,用戶能夠識別和細化數據的不肯定性,因爲定義不明確的不肯定模式,這是一項具備挑戰性的工做。這樣的過程須要語義理解。例如,異常訪問模式能夠用大量的假警報來檢測。一我的可能去超市不是那麼規律,這能夠被檢測爲異常行爲。可是,在語義層面,去超市是很正常的行爲。此外,對於具備多個數據源和屬性的場景,這些算法不容易找到精確的解,這須要人的參與。在複雜的數據分析場景中,數據驅動的方法工做得更好,由於沒有用於分析任務的現有模型。
儘管新穎而強大,但當前的不肯定性感知方法仍然存在侷限性。咱們能夠經過更直觀的操做和自動匹配的方法來改進手動操做部分。它能夠進一步提升咱們方法的效率。在將來,咱們還設想爲不一樣的數據源測試咱們的技術。應使用更大規模的數據集進一步評估系統的可擴展性。在現階段,咱們尚未作正式的用戶研究。咱們設想在將來進行一項用戶研究。
咱們學到的最大教訓是,咱們須要在不肯定性下推理。咱們不該假設數據中沒有歧義、錯誤或衝突。咱們認爲,咱們應該在乎識到不肯定性的狀況下分析數據。另外一方面,在識別不肯定性時,咱們須要瞭解不一樣的類型,並注意不肯定性會在整個可視化分析管道中傳播。
Conclusion
在這篇文章中,咱們提出了一個不肯定性感知的視覺分析系統,從異構時空數據中研究人類行爲。咱們總結了五種有表明性的不肯定性類型及其細化方法。提出了一種數據驅動的方法,咱們經過可視化界面充分利用人類的判斷。經過多種來源的交叉驗證,咱們能夠進一步提升細化結果的可靠性。基於細化結果,咱們可以識別行爲分析的模式和事件。