大數據研究的若干科學問題——徐宗本

什麼是大數據?算法

      維基百科:大數據是指沒法在允許的時間內用常規的軟件工具對其內容進行抓取、管理和處理的數據集合,大數據規模的標準是持續變化的,當前泛指單一數據集的大小在十幾TB和PB之間。框架

      大數據:不能集中存儲、難以在可接受時間內分析處理、而數據總體呈現高價值的海量複雜數據集。 機器學習

      大數據通常具備如下幾個特徵:分佈式

  1. 體量大:不能用現有的物理設備集中存儲,開放,高速可擴展。
  2. 複雜性高:多源、異構、相關、非結構化、不必定可靠、不一致性。
  3. 價值豐富:個體或部分數據呈現低價值,而數據總體呈現高價值。

 

大數據的科學問題:工具

      科學問題1:大數據高維問題:學習

       「決策要素(P)伴隨大數據(n)呈現更高量級」所引發的解的不肯定性與經典統計推斷失效問題。大數據

經典統計學:n>>p;高維問題:p>>n;大數據高維問題:p=O(exp(n)), n ->∞spa

     熱點研究:稀疏建模(壓縮感知、低秩矩陣分解、基於稀疏性的特徵提取、數據降維數、壓縮學習等);設計

     其中值得關注的科學問題:數據挖掘

  • 如何補足信息使問題可解;
  • 低維幾何的高維泛化;        
  • 高維數據自己的低維特徵;
 
      科學問題2:大數據的重採樣問題:
      大數據的重採樣技術:如何進行合適的重採樣,將大數據隨機劃分紅若干小數據集,而根據小數據集所得到的統計推斷,進行聚合處理後能反應原大數據集的規律與形態。

     其中值得關注的科學問題:

  • 如何重採樣以體現數據總體特徵;
  • 基於試驗設計的重採樣;
  • 基於目標信息處理的重採樣;        
  • 更加有效的聚合原理(Boosting,Bagging); 
 
     科學問題3:大數據的分佈式計算問題:
     分佈式計算:是大數據處理的計算模式,它包含多處理器自主計算、相互通訊,爲完成統一任務而並行工做的計算過程。主要挑戰來自數據的分佈性。
      其中值得關注的科學問題:     
  • 與分佈式計算相適應的存儲與查詢技術;
  • 問題解的可分解性與可組裝性;        
  • 大數據環境下的算法設計(機器學習,數據挖掘等);    

 

    科學問題4:大數據的信息融合問題:

    大數據的信息融合:根據多種數據或部分數據所得到的信息,經過融合信息處理(特別是互補信息的綜合)以得到到更加完整的決策。

    其中值得關注的科學問題:    

  • 決策與估計一體化理論;
  • 異構大數據處理的統一框架(特別是機器學習算法);        
  • 基於數據的模型驗證理論;
  • 非結構化數據的表徵、計算與理解;

 

     科學問題5:大數據的可視分析問題:

     運用與人類視認知相一致的圖形或者圖像方式生動展現高維數據的內在結構與規律性。提供了人機協同處理數據、人人普遍參與收集理解的平臺(或許是解決大數據問題的另一條道路)。

     值得關注的科學問題:    

  • 高維數據的本質特徵提取;
  • 形象的結構化表徵(可表達幾何空間的構造);
  • 從數據特徵空間到可表達幾何空間的映照設計;
  • 基於不變量(幾何,代數)的高維數據展現方式;
  • 非結構化數據的隱結構識別與展現;            
相關文章
相關標籤/搜索