MPP(大規模並行處理)簡介

一、 什麼是MPP?node

MPP (Massively Parallel Processing),即大規模並行處理,在數據庫非共享集羣中,每一個節點都有獨立的磁盤存儲系統和內存系統,業務數據根據數據庫模型和應用特色劃分到各個節點上,每臺數據節點經過專用網絡或者商業通用網絡互相鏈接,彼此協同計算,做爲總體提供數據庫服務。非共享數據庫集羣有徹底的可伸縮性、高可用、高性能、優秀的性價比、資源共享等優點。算法

簡單來講,MPP是將任務並行的分散到多個服務器和節點上,在每一個節點上計算完成後,將各自部分的結果彙總在一塊兒獲得最終的結果(與Hadoop類似)。數據庫

二、MPP(大規模並行處理)架構 服務器

                                         (MPP架構)網絡

三、 MPP架構特徵架構

● 任務並行執行;併發

● 數據分佈式存儲(本地化);dom

● 分佈式計算;分佈式

● 私有資源;高併發

● 橫向擴展;

● Shared Nothing架構。

四、 MPP服務器架構

它由多個SMP服務器經過必定的節點互聯網絡進行鏈接,協同工做,完成相同的任務,從用戶的角度來看是一個服務器系統。其基本特徵是由多個SMP服務器(每一個SMP服務器稱節點)經過節點互聯網絡鏈接而成,每一個節點只訪問本身的本地資源(內存、存儲等),是一種徹底無共享(Share Nothing)結構,於是擴展能力最好,理論上其擴展無限制。

五、MPPDB

MPPDB是一款 Shared Nothing 架構的分佈式並行結構化數據庫集羣,具有高性能、高可用、高擴展特性,能夠爲超大規模數據管理提供高性價比的通用計算平臺,並普遍地用於支撐各種數據倉庫系統、BI 系統和決策支持系統

六、MPPDB架構

MPP 採用徹底並行的MPP + Shared Nothing 的分佈式扁平架構,這種架構中的每個節點(node)都是獨立的、自給的、節點之間對等,並且整個系統中不存在單點瓶頸,具備很是強的擴展性。

                                        MPPDB架構

七、 MPPDB特徵

MPP 具有如下技術特徵:

1) 低硬件成本:徹底使用 x86 架構的 PC Server,不須要昂貴的 Unix 服務器和磁盤陣列;

2) 集羣架構與部署:徹底並行的 MPP + Shared Nothing 的分佈式架構,採用 Non-Master 部署,節點對等的扁平結構;

3) 海量數據分佈壓縮存儲:可處理 PB 級別以上的結構化數據,採用 hash分佈、random 存儲策略進行數據存儲;同時採用先進的壓縮算法,減小存儲數據所需的空間,能夠將所用空間減小 1~20 倍,並相應地提升 I/O 性能;

4) 數據加載高效性:基於策略的數據加載模式,集羣總體加載速度可達2TB/h;

5) 高擴展、高可靠:支持集羣節點的擴容和縮容,支持全量、增量的備份/恢復;

6) 高可用、易維護:數據經過副本提供冗餘保護,自動故障探測和管理,自動同步元數據和業務數據。提供圖形化工具,以簡化管理員對數據庫的管理工做;

7) 高併發:讀寫不互斥,支持數據的邊加載邊查詢,單個節點併發能力大於 300 用戶;

8) 行列混合存儲:提供行列混合存儲方案,從而提升了列存數據庫特殊查詢場景的查詢響應耗時;

9) 標準化:支持SQL92 標準,支持 C API、ODBC、JDBC、ADO.NET 等接口規範。

八、 常見MPPDB

● GREENPLUM(EMC)

● Asterdata(Teradata)

● Nettezza(IBM)

● Vertica(HP)

● GBase 8a MPP cluster(南大通用)

九、 MPPDB、Hadoop與傳統數據庫技術對比與適用場景

MPPDB與Hadoop都是將運算分佈到節點中獨立運算後進行結果合併(分佈式計算),但因爲依據的理論和採用的技術路線不一樣而有各自的優缺點和適用範圍。兩種技術以及傳統數據庫技術的對好比下:


綜合而言,Hadoop和MPP兩種技術的特定和適用場景爲:

● Hadoop在處理非結構化和半結構化數據上具有優點,尤爲適合海量數據批處理等應用要求。

● MPP適合替代現有關係數據機構下的大數據處理,具備較高的效率。

MPP適合多維度數據自助分析、數據集市等;Hadoop適合海量數據存儲查詢、批量數據ETL、非機構化數據分析(日誌分析、文本分析)等。

由上述對比可預見將來大數據存儲與處理趨勢:MPPDB+Hadoop混搭使用,用MPP處理PB級別的、高質量的結構化數據,同時爲應用提供豐富的SQL和事物支持能力;用Hadoop實現半結構化、非結構化數據處理。這樣能夠同時知足結構化、半結構化和非結構化數據的高效處理需求。

相關文章
相關標籤/搜索