專題導讀:大數據整理

專題導讀:大數據整理算法

在大數據時代,數據呈現多源、異構、 信息不一致、信息不完整等特色,這會造 成數據不完整、數據質量較低的問題。數 據整理(包括數據發現、數據準備、數據 清洗、數據融合等)旨在整合多源異構數 據,造成高質量的統一數據視圖。因爲數 據的異質性、開放性,數據整理成爲大數 據處理的瓶頸,不少數據分析應用80%以 上的工做都花在了數據整理上。所以如何 實現高效的大數據的智能化整理,已成爲 學術界與產業界共同關注的焦點。本專題 「大數據整理」聚集了我國從事大數據處 理方向的部分專家的研究成果,以期與大 家共同探討該方向的前沿研究與技術發展 趨勢。
範舉等人的論文《人在迴路的數據準備技術研究進展》給出了人在迴路數據準 備技術的研究進展,詳細分析了基於衆包 的數據準備技術,如清洗與集成,並對衆包成本作出優化;還總結了交互式數據準備技術,將用戶交互引入數據準備中,並經過有效的預測算法來節省數據準備的時間。 最後,對人在迴路的數據準備作出了總結, 並探討了將來的挑戰性問題。
丁小歐等人的論文《工業時序大數據質量管理》介紹了工業時序大數據的特色及工業數據質量管理的難點,並對工業時序大數據質量管理的研究現狀加以分析、總結,最後提出了時序大數據質量管理方法和系統性能的提高方向。
於明鶴等人的論文《數據管護技術及應用》系統介紹了數據管護的處理過程和 其中的關鍵技術,給出了幾種基於數據管 護的應用,並對其技術特色進行了對比分 析,還對數據管護技術的發展前景和將來挑戰進行了總結。
包小源等人的論文《基於數據空間的電子病歷數據融合與應用平臺》針對電子病歷數據的脫敏和集成進行分析,創建了基 於原始數據空間、匿名數據空間、模型數據空間的電子病歷數據集成、融合、二次利用平臺。
本專題因爲篇幅有限,不能涵蓋數據 整理的方方面面,但願經過闡述數據整理面臨的機遇與挑戰,引發各界的關注和進 一步研究,並推進其進一步發展。ide

相關文章
相關標籤/搜索