【大數據論文筆記】大數據系統和分析技術綜述

一、大數據處理與系統算法

  簡介 特徵 典型應用 表明性的處理系統 適用場景
批量數據處理系統 首要任務:
1.利用批量數據挖掘合適的模式
2.得出具體的含義
3.制定明智的決策
4.作出有效的應對措施5.實現業務目標
1.數據體量巨大
2.數據精確度高
3.數據價值密度低
1.互聯網領域:
      a.社交網絡
      b.電子商務
      c.搜索引擎
2.安全領域
      a.IT安全
      b.欺詐檢測
      c.識別惡意軟件和網絡攻擊模式
3.公共服務領域
      a.能源(eg.石油儲量)
      b.醫療保健(eg.語義分析)
4.……
a.GFS(google)
b.MapReduce(google)+HDFS[hadoop]
PS:
MapReduce三大優點:
1.採用無共享大規模集羣系統
2.模型簡單、易於理解、易於使用
3.提供很好的數據處理性能
先存儲後計算
實時性要求不高
數據的準確性和全面性更爲重要
流式數據處理系統

總之,流式數據的特色是,數據接二連三、來源衆多、格式複雜、物理順序不1、數據的價值密度低.而對
應的處理工具則需具有高性能、實時、可擴展等特性. 數據庫

1.一個無窮的數據序列
2.一般含有時間標籤或其他含蓄屬性
3.數據的產生是實時的,不可預知的
4.數據流速每每有較大的波動
5.數據的格式能夠是結構化的、半結構化的甚至是無結構化的
6.數據流中每每含有錯誤元素、垃圾信息等
7.流式數據是活動的
1.數據採集應用(eg.日誌採集、傳感器採集),智能交通,環境監控,災難預警
2.金融行業的應用(eg.股票期貨市場)
1.Storm(Twitter)
2.Scribe(Facebook)
3.Samza(Linkedin)
4.Flume(Cloudera)
5.Nutch(Apache)
源於服務器日誌的實時採集
交互式數據處理  

交互式數據處理靈活、直觀、便於控制.系統與操做人員以人機對話的方式一
問一答——操做人員提出請求,數據以對話的方式輸入,系統便提供相應的數據或提示信息,引導操做人員逐步
完成所需的操做,直至得到最後處理結果.安全

1.信息處理系統領域
      主要體現人際間的交互
2.互聯網領域
      eg.百度知道,新浪愛問,Yahoo!的知識堂

目前,各大平臺主要使用 NoSQL 類型的數據庫系統來處理
交互式的數據,如 HBase採用多維有續表的列式存儲方式;MongoDB採用 JSON 格式的數據嵌套存儲方式.大多 NoSQL 數據庫不提供 Join 等關係數據庫的操做模式,以增長數據操做的實時性. 服務器

1.Spark(Berkeley)
2.Dremel(Google)
目標:將PB級數據的處理時間縮短到秒級
聯機事務處理(OLTP)普遍應用於對操做序列有嚴格要求的工業控制領域
聯機分析處理(OLAP)基於數據倉庫普遍應用於數據分析、商業智能(BI)
圖數據處理系統   1.節點之間的關聯性
2.圖數據的種類繁多
3.,圖數據計算的強耦合性
1.互聯網領域
     以  Web  2.0  技術爲基礎的社交網絡(如Facebook、人人網)、微博(如  Twitter、新浪微博、騰訊微博)等新興服務中創建了大量的在線社會網絡關係
2.天然科學領域
      圖能夠用來在化學分子式中查找分子,在蛋白質網絡中查找化合物,在  DNA  中查找特定序列等
3.交通領域
      最短路
圖數據庫:
1.GraphLab
2.Neo4j
3.HyperGraphDB
4.InfiniteGraph
5.Cassovary
6.Trinity
7.Grappa
8.Giraph(基於 Pregel (Google)克隆)
系統:
1.Pregel (Google)
2.Neo4j
3.Trinity(Microsoft)
 

 

注:微信

  • 實時數據處理是針對批量數據處理的性能問題提出的,可分爲:a)流式數據處理;b)交互式數據處理。

總結——3種發展趨勢網絡

  • 數據處理引擎專用化
  • 數據處理平臺多樣化
  • 數據計算實時化

 

 

二、大數據分析app

    例子
深度學習 核心問題是如何對數據進行有效表達、解釋和學習 語音識別、OCR(光學字符)識別、人臉識別、圖像搜索
知識計算

要對數據進行高端分析,就須要從大數據中先抽取出有價值的知識,並把它構建成可支持查詢、分析和計算知識庫

支持知識計算的基礎是構建知識庫,這包括 3 個部分,即知識庫的構建、多源知識的融合與知識庫的更新.工具

世界各國各個組織創建的知識庫多達 50 餘種,相關的應用系統更是達到了上百種.其中,表明性的知識庫或應用系統有KnowItAll,TextRunner,NELL,Probase,Satori,PROSPERA,SOFIE以及一些基於維基百科等在線百科知識構建的知識庫,如DBpedia,YAGO,Omega和WikiTaxonomy

 

社會計算

對在線社會網絡結構、信息傳播以及信息內容的分析、建模與挖掘等一系列問題oop

1.在線社會網絡的結構分析性能

2.在線社會網絡的信息傳播模型

3.社會媒體中信息檢索與數據挖掘

以 Facebook、Twitter、新浪微博、微信等爲表明的在線社交網絡和社會媒體正深入改變着人們傳播信息
和獲取信息的方式,人和人之間結成的關係網絡承載着網絡信息的傳播,人的互聯成爲信息互聯的載體和信息
傳播的媒介,社會媒體的強交互性、時效性等特色使其在信息的產生、消費和傳播過程當中發揮着愈來愈重要的
做用,成爲一類重要信息載體.

可視化

.現有研究工做主要聚焦在 4 個方面

:(1)  經過對信息流進行壓縮或者刪除數據中的冗餘信息對數據進行簡化.

(2)  經過設計多尺度、多層次的方法實現信息在不一樣的解析度上的展現,從而使用戶可自主控制展現解析度

(3)  利用創新的方法把數據存儲在外存,並讓用戶能夠經過交互手段方便地獲取相關數據,這類研究也成爲核外算法(out-of-core  algorithm)

 

小  結
大數據處理和分析的終極目標是藉助對數據的理解輔助人們在各種應用中做出合理的決策.在此過程當中,深度學習、知識計算、社會計算和可視化起到了相輔相成的做用.
(1)  深度學習提升精度:
(2)  知識計算挖掘深度:
(3)  社會計算促進認知;
(4)  強可視化輔助決策:

三、大數據計算面臨的挑戰與應對之策

3大核心挑戰:

1.數據複雜性

2.計算複雜性

3.系統複雜性

相關文章
相關標籤/搜索