什麼是大數據?算法
維基百科:大數據是指沒法在允許的時間內用常規的軟件工具對其內容進行抓取、管理和處理的數據集合,大數據規模的標準是持續變化的,當前泛指單一數據集的大小在十幾TB和PB之間。框架
大數據:不能集中存儲、難以在可接受時間內分析處理、而數據總體呈現高價值的海量複雜數據集。 機器學習
大數據通常具備如下幾個特徵:分佈式
大數據的科學問題:工具
科學問題1:大數據高維問題:學習
「決策要素(P)伴隨大數據(n)呈現更高量級」所引發的解的不肯定性與經典統計推斷失效問題。大數據
經典統計學:n>>p;高維問題:p>>n;大數據高維問題:p=O(exp(n)), n ->∞spa
熱點研究:稀疏建模(壓縮感知、低秩矩陣分解、基於稀疏性的特徵提取、數據降維數、壓縮學習等);設計
其中值得關注的科學問題:數據挖掘
其中值得關注的科學問題:
科學問題4:大數據的信息融合問題:
大數據的信息融合:根據多種數據或部分數據所得到的信息,經過融合信息處理(特別是互補信息的綜合)以得到到更加完整的決策。
其中值得關注的科學問題:
科學問題5:大數據的可視分析問題:
運用與人類視認知相一致的圖形或者圖像方式生動展現高維數據的內在結構與規律性。提供了人機協同處理數據、人人普遍參與收集理解的平臺(或許是解決大數據問題的另一條道路)。
值得關注的科學問題: