海量數據處理利器greenplum——初識

時間 2019-11-13

原文原文鏈接

本文轉自https://www.cnblogs.com/skyme/p/5779885.htmlhtml

簡介及適用場景

若是想在數據倉庫中快速查詢結果，可使用greenplum。node

Greenplum數據庫也簡稱GPDB。它擁有豐富的特性：數據庫

第一，完善的標準支持：GPDB徹底支持ANSI SQL 2008標準和SQL OLAP 2003 擴展；從應用編程接口上講，它支持ODBC和JDBC。完善的標準支持使得系統開發、維護和管理都大爲方便。而如今的 NoSQL，NewSQL和Hadoop 對 SQL 的支持都不完善，不一樣的系統須要單獨開發和管理，且移植性很差。編程

第二，支持分佈式事務，支持ACID。保證數據的強一致性。架構

第三，作爲分佈式數據庫，擁有良好的線性擴展能力。在國內外用戶生產環境中，具備上百個物理節點的GPDB集羣都有不少案例。框架

第四，GPDB是企業級數據庫產品，全球有上千個集羣在不一樣客戶的生產環境運行。這些集羣爲全球不少大的金融、政府、物流、零售等公司的關鍵業務提供服務。分佈式

第五，GPDB是Greenplum（如今的Pivotal）公司十多年研發投入的結果。GPDB基於PostgreSQL 8.2，PostgreSQL 8.2有大約80萬行源代碼，而GPDB如今有130萬行源碼。相比PostgreSQL 8.2，增長了約50萬行的源代碼。oop

第六，Greenplum有不少合做夥伴，GPDB有完善的生態系統，能夠與不少企業級產品集成，譬如SAS，Cognos，Informatic，Tableau等；也能夠不少種開源軟件集成，譬如Pentaho,Talend 等。性能

greenplum起源

Greenplum最先是在10多年前（大約在2002年）出現的，基本上和Hadoop是同一時期（Hadoop 約是2004年先後，早期的Nutch可追溯到2002年）。當時的背景是：spa

互聯網行業通過以前近10年的由慢到快的發展，累積了大量信息和數據，數據在爆發式增加，這些海量數據急需新的計算方式，須要一場計算方式的革命；
傳統的主機計算模式在海量數據面前，除了造價昂貴外，在技術上也難於知足數據計算性能指標，傳統主機的Scale-up模式遇到了瓶頸，SMP（對稱多處理）架構難於擴展，而且在CPU計算和IO吞吐上不能知足海量數據的計算需求；
分佈式存儲和分佈式計算理論剛剛被提出來，Google的兩篇著名論文發表後引發業界的關注，一篇是關於GFS分佈式文件系統，另一篇是關於MapReduce 並行計算框架的理論，分佈式計算模式在互聯網行業特別是收索引擎和分詞檢索等方面得到了巨大成功。

下圖就是GFS的架構