統一數據平臺——架構體系

時間 2019-12-09

原文原文鏈接

計劃撰寫內容：1.平臺使用的技術體系及其組成的架構；2.平臺的數據體系（架構）；3.主要技術的介紹數據庫

1.集羣概述

Hadoop集羣在於其生態組件的豐富性，目前，咱們平臺已經部署包含採集、存儲、計算、資源管理相關的hadoop、hdfs、hive、hbase、yarn、zookeeper、sqoop、flume、storm、spark、kafka等組件。json

其中hadoop、hdfs、hive、sqoop 是咱們目前最直接經常使用的組件。服務器

一二期階段，Hive是咱們建設大數據倉庫首選加工語言，Sqoop用來實現Oracle和Hive的數據交換，目前咱們處於此階段。架構

三期階段，咱們計劃建設實時類數據採集加工服務，將採用flume、kafka、storm、spark等技術。app

2.服務架構

當咱們把系列技術優化整合成功用來解決相關業務需求的時候，就造成了一套完整的服務架構。oop

如下內容嚴格意義上屬於公司內部知識，但還沒有涉及知識侵權，適當調整與你們分享學習。性能

2.1整體架構

2.2技術體系

2.3數據體系

（電信運營聯通的大數據倉庫體系，由咱們公司總部大數據專家建設，省分參考落地）學習

2.4數據服務

3.平臺規劃採集內容

3.1 傳統結構化經營數據

重心 70%
大數據

3.2 半結構化上網日誌數據

20% （json等格式）
dpi解析（深度報文解析）---url（app\網站）、關鍵詞
優化

3.3 非結構化上網行爲數據

10% 文本挖掘、搜索關鍵詞、熱點詞頻等

暫未涉及

參考知識：MPP數據庫與SMP數據庫

1.大規模並行處理（MPP:Massively Parallel Processor ）
目前常見的MPP架構數據庫：
   1.GreenPlum
   2.DB2 DPF架構數據庫（DB2的多分區數據庫）
   3.vertica mpp數據庫
（其餘：GBase 8a cluster、xCloud、infindb（開源）、infobright（開源））

MPP數據庫特色：
1.所有基於PostgreSQL或自行定義的類SQL語言
2.都是基於列的存儲(Columnar Storage)
3.操做都是以Scan爲基礎，依賴Compression來提供性能的優化

列存數據庫：
GreenPlum、GBase 8a、xCloud、infindb（開源）、infobright（開源）

xCloud（行雲）是咱們公司自主研發的列存儲數據庫。

列式數據庫是以列相關存儲架構進行數據存儲的數據庫，主要適合與批量數據處理和即席查詢。
列式數據庫從一開始就是面向大數據環境下數據倉庫的數據分析而產生，它跟行式數據庫相比固然也有一些前提條件和優缺點.

列式數據庫優勢：
極高的裝載速度 (最高能夠等於全部硬盤IO 的總和，基本是極限了)
適合大量的數據而不是小數據
實時加載數據僅限於增長（刪除和更新須要解壓縮Block 而後計算而後從新壓縮儲存）
高效的壓縮率，不只節省儲存空間也節省計算內存和CPU.
很是適合作聚合操做.

2.對稱多處理（SMP:Symmetrical Multi-Processing）

Oracle等是基於此架構。

這些都是指服務器的架構。

從系統架構來看，目前的商用服務器大致能夠分爲三類，即：對稱多處理器結構(SMP：Symmetric Multi-Processor) 非一致存儲訪問結構(NUMA：Non-Uniform Memory Access) 以及海量並行處理結構(MPP：Massive Parallel Processing)