多圖技術貼:深刻淺出解析大數據平臺架構

目錄:編程

  • 什麼是大數據
  • Hadoop介紹-HDFS、MR、Hbase
  • 大數據平臺應用舉例-騰訊
  • 公司的大數據平臺架構

「就像望遠鏡讓咱們可以感覺宇宙,顯微鏡讓咱們可以觀測微生物同樣,大數據正在改變咱們的生活以及理解世界的方式……」。安全

大數據的4V特徵-來源架構

公司的「大數據」併發

隨着公司業務的增加,大量和流程、規則相關的非結構化數據也爆發式增加。好比:負載均衡

一、業務系統如今平均天天存儲20萬張圖片,磁盤空間天天消耗100G;分佈式

二、平均天天產生簽約視頻文件6000個,每一個平均250M,磁盤空間天天消耗1T;函數式編程

……函數

三國裏的「大數據」

「草船借箭」和大數據有什麼關係呢?對天象的觀察是基於一種對風、雲、溫度、溼度、光照和所處節氣的綜合分析這些數據來源於多元化的「非結構」類型,而且數據量較大,只不過這些數據輸入到的不是電腦,而是人腦並最終經過計算分析得出結論。高併發

Google分佈式計算的三駕馬車

  • Google File System用來解決數據存儲的問題,採用N多臺廉價的電腦,使用冗餘(也就是一份文件保存多份在不一樣的電腦之上)的方式,來取得讀寫速度與數據安全並存的結果。
  • Map-Reduce說穿了就是函數式編程,把全部的操做都分紅兩類,map與reduce,map用來將數據分紅多份,分開處理,reduce將處理後的結果進行歸併,獲得最終的結果。
  • BigTable是在分佈式系統上存儲結構化數據的一個解決方案,解決了巨大的Table的管理、負載均衡的問題。

Hadoop體系架構oop

Hadoop核心設計

HDFS介紹-文件讀流程

Client向NameNode發起文件讀取的請求。
NameNode返回文件存儲的DataNode的信息。
Client讀取文件信息。
HDFS介紹-文件寫流程
Client向NameNode發起文件寫入的請求。
NameNode根據文件大小和文件塊配置狀況,返回給Client它所管理部分DataNode的信息。
Client將文件劃分爲多個Block,根據DataNode的地址信息,按順序寫入到每個DataNode塊中。
MapReduce——映射、化簡編程模型
輸入數據->Map分解任務->執行並返回結果->Reduce彙總結果->輸出結果

Hbase——分佈式數據存儲系統

Client:使用HBase RPC機制與HMaster和HRegionServer進行通訊

Zookeeper:協同服務管理,HMaster經過Zookeepe能夠隨時感知各個HRegionServer的健康情況

HMaster: 管理用戶對錶的增刪改查操做

HRegionServer:HBase中最核心的模塊,主要負責響應用戶I/O請求,向HDFS文件系統中讀寫數據

HRegion:Hbase中分佈式存儲的最小單元,能夠理解成一個Table

HStore:HBase存儲的核心。由MemStore和StoreFile組成。

HLog:每次用戶操做寫入Memstore的同時,也會寫一份數據到HLog文件

還有哪些NoSQL產品?

爲何要使用NoSQL?

一個高併發網站的DB進化史

關係模型>聚合數據模型的轉換-基本變換

關係模型>聚合數據模型的轉換-內嵌變換

關係模型>聚合數據模型的轉換-分割變換

關係模型>聚合數據模型的轉換-內聯變換

Hadoop2.0

MapReduce:
JobTracker:協調做業的運行。
TaskTracker:運行做業劃分後的任務。

 

大數據的技術領域

 

 

騰訊大數據現狀(資料來自2014.4.11 騰訊分享日大會)

騰訊大數據平臺產品架構

騰訊大數據平臺與業務平臺的關係

公司數據處理平臺的基礎架構

公司大數據平臺架構圖

應用一數據分析

應用二視頻存儲

應用三離線日誌分析

相關文章
相關標籤/搜索