初識大數據（三. Hadoop與MPP數據倉庫）

時間 2019-11-11

標籤數據 hadoop mpp 倉庫欄目 Hadoop 简体版

原文原文鏈接

　　MPP表明大規模並行處理，這是網格計算中全部單獨節點參與協調計算的方法。是將任務並行的分散到多個服務器和節點上，在每一個節點上計算完成後，將各自部分的結果彙總在一塊兒獲得最終的結果。 MPP DBMS是創建在這種方法之上的數據庫管理系統。在這些系統中的每一個查詢都會被分解爲由MPP網格的節點並行執行的一組協調進程，它們的運行時間比傳統的SMP RDBMS系統快得多。該架構的另外一個優勢是可擴展性，由於能夠經過添加新節點擴展網格。爲了可以處理大量的數據，這些解決方案中的數據一般在每一個節點只處理其本地數據的方式在節點（分片）之間分割。這是一種徹底無共享(Share Nothing)結構，於是擴展能力最好，理論上其擴展無限制，目前技術上可實現512個節點互聯，數千個CPU。MPP有對SQL的完整兼容和一些事務處理功能，若是數據擴展需求不是特別大，數據都是結構化數據，習慣使用傳統RDBMS，能夠選擇MPP數據倉庫。數據庫

目前有不少關於hadoop技術棧與MPP數據倉庫的討論與對比，不少觀點認爲hadoop能夠替代MPP,可是從下表的比對能夠看出二者的差別，對於不一樣的場景以及MPP技術的發展，應該仍是處於並存的狀態。另外，基於複雜的數據場景下，混合框架的使用，也仍是會存的。咱們團隊就使用混合框架構建了數據中心，從而完善OLTP能力。編程

如下是二者的比較：服務器

特性架構	Hadoop框架	MPP數據倉庫編程語言
計算節點數oop	可到數千個人工智能	通常1000個之內spa
數據量視頻	支持大於10P	通常不大於10P
數據類型	關係型，半關係型，無結構化，語音，圖像，視頻	關係型
時延	中/高	低（但仍是要看數據量和維度的數量）
應用生態	創新型/人工智能	傳統數據庫型/BI類
應用開發接口	SQL，MR，豐富的編程語言接口	標準數據庫SQL
可擴展性	無窮的可能，完整的編程接口	有限擴展能力，主要經過UDF支持
事務支持	有限	完整
價格	低	高