導讀:從最初的 Greenplum 開始,到如今已經超過15年的驗證,咱們一直是 Greenplum 的用戶。多年來,隨着咱們對產品和支持的信心不斷加強,它已逐漸成爲VLDB的默認平臺。但願本文講述的這些緣由能解除你們的困惑。算法
本文翻譯自 VLDB Co-founder Paul Johnson 發佈於 Linkedin 上的《 Why Greenplum Is The Best…Of The Rest 》,原文連接:
https://www.linkedin.com/pulse/why-greenplum-bestof-rest-paul-johnson/?from=groupmessage&isappinstalled=0。數據庫
面向數據倉庫領域的數據庫衆多,帶頭進入這一領域的老大哥是上世紀80年代創立的Teradata。編程
早在20世紀80年代,Teradata 公司在市場上推出了與其公司同名的分析型數據庫,當時大致量的數據還在用 Terabyte(TB)表示。那時,確切的說是在 Teradata DBC1012 上運行查詢。這張圖片是我1988年剛開始接觸 Teradata 時的參考卡片。服務器
早在20世紀80年代,Teradata公司在市場上推出了與其公司同名的分析型數據庫,當時大致量的數據還在用Terabyte(TB)表示。那時,確切的說是在Teradata DBC1012上運行查詢。這張圖片是我1988年剛開始接觸Teradata時的參考卡片。網絡
在過去的幾年中,數據倉庫領域已經大大升溫。如今有比以前更多的選擇。Teradata可能仍然是市場領導者,但並不是每一個人都須要Teradata。架構
那麼,若是Teradata仍然是市場上的老大哥,那麼其他的呢?app
在這裏,咱們要告訴那些一直在關注該領域的人,咱們好久以來一直是Greenplum的死忠粉。運維
出於「推崇共享」(顯然共享很重要)的價值觀,咱們展開闡述「 VLDB團隊」成爲Greenplum粉絲的十大緣由。機器學習
傳統數據倉庫系統針對本地物理硬件進行了優化。這並不奇怪,由於舊系統要早於AWS,Azure和Google等公有云的出現。編程語言
相比之下,Redshift,BigQuery和Snowflake等「現代數據倉庫系統」是「僅運行在雲上」的。這些現代數據倉庫系統都不支持非雲環境部署。Redshift僅適用於AWS,BigQuery僅適用於Google。用戶的選擇並很少 - 要麼選擇數據庫要麼選擇平臺,但不能二者都選。
Greenplum則是「能夠在任何地方構建」的數據倉庫。Greenplum能夠在物理硬件、VMWare私有云和AWS或Azure或Google等公有云平臺上運行。爲了跟上時代前沿,還支持Kubernetes(K8S)部署。
只要您選擇的平臺支持Linux,就可使用Greenplum。
公認的是,通用SMP數據庫(例如Oracle,SQL Server和MySQL)沒法一直擴展以知足數據倉庫系統的需求。
與通用SMP數據庫不一樣,Greenplum部署爲「大規模並行處理」(MPP)體系結構的羣集。與SMP體系不一樣,MPP體系結構是線性的可擴展的,所以能夠不斷地添加更多的計算、存儲或網絡帶寬資源。
多虧了Teradata的朋友,MPP架構在現實世界中已有30年的成功記錄。
Greenplum的可擴展MPP體系結構使您能夠從單個節點開始,根據須要擴展集羣,以知足不斷變化的容量、吞吐量和性能需求。
藉助通過驗證的MPP架構,您始終能夠擴展Greenplum集羣以知足您的確切要求。
數據倉庫一般是現代企業中的關鍵報告、查詢分析和決策支持系統。因此將此類活動賦予一個具備明確可追蹤記錄的系統是相當重要的。
Greenplum是一個「大規模並行Postgres」系統,而且是「 惟一」的開源MPP數據倉庫系統。
Postgres數據庫擁有30年的歷史,被譽爲「世界上最早進的開源數據庫」。
諸如Greenplum和Netezza(RIP)的並行Postgres數據庫已有15年的歷史,而且已經證實了基於Postgres構建MPP平臺的優點。
Greenplum最初是在2005年從Postgres分拆出來的,從那時開始,Greenplum的內核一直保持在較老版本(Postgres 8.2)。自從2015年開源以來,Greenplum研發團隊明顯加快了合併Postgres新版本代碼的速度,目標是在2020年合併到當前最新版本的Postgres。
在全部並行Postgres數據庫系統中,Greenplum是惟一具備詳細近期開發路線圖的數據庫,可實現最新最完整的Postgres代碼整合併合理利用Postgres全球開源社區開發的新功能來完善本身。
Greenplum數據庫軟件的核心是「開源」的。該軟件主要由Pivotal開發和推廣。與VMWare、RSA和EMC等技術行業巨頭同樣,Pivotal也是Dell Technologies集團公司的一部分。
與Linux /RedHat的模式相似,Pivotal對Greenplum提供付費支持。
Pivotal支持的Greenplum版本還包括其餘增值組件,例如Greenplum命令中心(GPCC,一款優秀的監控和運維工具)。
Greenplum擁有Pivotal公司這個強力後臺。企業級支持可用於開源Greenplum數據庫。互相促進。
「概念驗證」項目或POC一般是證實任何新技術選型價值的重要步驟。數據倉庫系統也不例外。
Pivotal的許可模式容許用戶在POC期間無償使用Greenplum數據庫。
這期間,您能夠在選擇的基礎架構上評估Greenplum的功能和性能,而無需支付任何軟件許可費用。
免費的評估許可證意味着您無需過多擔憂許可時間或POC功能閹割等問題,Greenplum的價值也能夠迅速獲得體現。
傳統數據倉庫系統一般要求購買完整的硬件/軟件/存儲堆棧。傳統方法可能會涉及大量的前期資本支出(「CapEx」)。
現代的純雲數據倉庫系統一般按使用量或「現收現付」(PAYG)訂價。儘管PAYG模型避免了前期資本支出,但基於消耗的模型可能會致使不可預測且不受限制的運營支出(OpEx)。
Pivotal對於Greenplum的受權是一種簡單的基於CPU內核的訂價受權方式。Pivotal的基於計算的訂閱模型不須要預先的資本支出,而且避免了不可預測和不受限制的運營支出的風險,而現代純雲產品一般就是這種狀況。
一樣使用簡單的基於CPU內核的訂價受權方式,客戶或者在內部部署Greenplum或者經過公共雲進行部署 - 兩種方式都沒有進一步的成本投入。
自20世紀70年代以來,關係型數據庫管理系統(RDBMS)和結構化查詢語言(SQL)的組合一直是數據管理領域的基礎。
從運行SQLite的嵌入式系統到PB規模的數據倉庫集羣,數據管理世界仍在SQL上運行,這是不爭的事實。這不太可能在短期發生改變(這件事,有人能夠告訴Hadoop的粉絲嗎?)。
做爲一個Postgres集羣系統,Greenplum在SQL上運行。在外界看來,它就像一臺單獨的Postgres數據庫同樣。
無須學習新的編程語言;無須增長新的ETL開發人員、BI開發人員或最終用戶培訓計劃;無需購買新的BI工具。
Greenplum在SQL上運行,這就是您所須要的。大家都已經瞭解SQL了,對吧?
SQL很是適合傳統的數據倉庫場景,例如ELT樣式的ETL、KPI報告、BI工具和最終用戶查詢,可是那些使人討厭的新型「數據科學」場景呢?
好消息是,Greenplum還經過R、Python和Madlib覆蓋了數據科學領域。
Greenplum支持存儲過程語言PL/Python和PL/R。
Python和R都可用於建立用戶定義函數(UDF),以提供可擴展的數據庫內數據科學能力。
Apache Madlib是一個開源的數學、統計和機器學習庫,可與Greenplum一塊兒使用,以處理結構化和非結構化數據,以提供可擴展的數據庫內分析能力。
可使用Madlib開發基於SQL的算法,而無需將Greenplum的數據傳輸到別的工具再進行數據科學算法處理。
集成了Python、R和SQL的Madlib庫可用於在Greenplum數據庫內開發和部署數據科學應用程序,而無需額外費用支出。
數十年來,技術行業對分析師的評價深信不疑。Gartner幾乎能夠確定是技術領域中最具影響力的分析公司。
Gartner於2019年3月19日發佈的「傳統數據倉庫」用戶用例中,對比列出了主要的數據倉庫產品/服務供應商所處的位置。
絕不奇怪,Teradata以3.73分(滿分5分)排名第一。Pivotal Greenplum的得分爲3.49,排名第三,僅次於Oracle Exadata,它的得分爲3.54,排名第二。
根據Gartner的調查,Greenplum的排名高於SAP HANA(3.35)、Google BigQuery(3.27)、IBM DB2(3.22)、Snowflake(3.22)、Amazon Redshift(3.16)和Microsoft Azure SQL數據倉庫(3.15)。
考慮到傳統數據倉庫用例積累時間較長,也許不足爲奇,相比之下,Hadoop供應商(MapR,Hortonworks和Cloudera)的得分都低於3.0。
Gartner在「傳統數據倉庫」用例中對Greenplum給予了很高的評價。除非您須要Oracle Exadata系統(如今誰還須要呢?),不然只有Teradata配處於Greenplum前列。
「一切工做均可以在PowerPoint完成」這一事實多是技術行業中的一個大問題。不只如此!
POC一般是在購買產品以前驗證技術的潛在風險點。POC的順利完成無疑能夠增長信心,可是要確保數據倉庫技術能夠應付「鼎盛」時期的生產狀態,仍然須要翻越巨大的鴻溝。
在VLDB團隊中,咱們推崇「用行動展現給我,不要只動嘴」的法則。咱們也確實如推崇的法則那樣挑剔!
使用Greenplum來應對其長期業務負載的用戶包括摩根士丹利和Conversant Media。
摩根士丹利的Greenplum生產環境由數百臺服務器組成,並支持20PB的原始數據(壓縮後10PB)。相似的規模,Conversant的Greenplum系統單表規模已經達到上億億…行(特別特別多)。
爲何這件事這麼重要?像MorganStanley和Conversant這樣的最終用戶能夠提供給您強有力的證據,證實Greenplum已經有能力應對您苛刻的生產中的工做負荷。
就像那個男人說的:
「不管咱們想出什麼用例,以及想出什麼方式來更好地理解用戶,Greenplum均可以作到這一點。」
——Conversant負責數據倉庫的副總裁John Conley
這樣已經足夠證實了 - 就數據倉庫平臺而言,這是咱們認爲Greenplum是和其餘相比最佳的十大理由。
從最初的Greenplum開始,到如今已經超過15年的驗證,咱們一直是Greenplum的用戶。多年來,隨着咱們對產品和支持的信心不斷加強,它已逐漸成爲VLDB的默認平臺。但願本文講述的這些緣由能解除你們的困惑。
得到Greenplum更多幹貨內容,歡迎前往Greenplum中文社區網站