聚水潭是如何基於AnalyticDB for PostgreSQL 構築海量實時數倉平臺的

聚水潭數據倉庫業務介紹

上海聚水潭網絡科技有限公司成立於2014年。聚水潭建立之初,以電商SaaS ERP切入市場,憑藉出色的產品和服務,快速得到市場領先地位。隨着客戶需求的不斷變化,現在聚水潭已經發展成爲以SaaS ERP爲核心,集多種商家服務爲一體的SaaS協同平臺,爲全國33萬多家電商企業提供全面的信息化解決方案。數據庫

來自阿里巴巴旗下商家服務市場的最新數據顯示,聚水潭已經是企業ERP類目中使用商家數最多的軟件。自雙十一購物節誕生以來,團隊經歷了每一次電商大促的考驗,儘管每一年承載單量成幾何倍數增長,聚水潭系統依然保持平穩、安全和順暢地運行。2019年11月11日,聚水潭系統處理訂單總量達 2.5億單,成交額超400億元。安全

基於阿里雲的ECS和數據庫產品,聚水潭構建了一整套具備競爭力的電商SaaS平臺,爲商家提供訂單管理、倉儲管理、分銷管理和協同供應鏈等功能。而且基於財務和經營數據,爲商家提供快速經營報表、分析、測算工具系統。阿里雲數據庫爲其提供了多元化的數據庫服務。其中AnalyticDB for PostgreSQL(簡稱 ADB PG)分析型數據庫支撐了核心數據倉庫的ETL做業、CRM系統和在線分析報表業務,總體數據量達到 200TB+,天天超過354萬任務運行。過去幾年年來,ADB PG支撐了屢次電商大促考驗,2019年雙十一期間聚水潭數倉日數據增量5.6TB,平均寫入TPS 208萬,全程平穩,零業務異常。網絡

聚水潭數倉演進及解決方案

聚水潭在數據倉庫方面,從無到有探索出一整套符合電商SaaS平臺的數據倉庫架構,其數據倉庫演進經歷了從原始期到成熟期的4個階段:架構

  • 原始期(2014年~2016年4月):公司初創期間,數據庫以服務業務系統爲主;
  • 探索期(2016年4月~2016年9月):業務規模達到必定程度,開始有數據倉庫需求,使用業務數據庫承擔部分數據倉庫功能,隨着業務的增加,業務系統和數倉相互影響;
  • 自建期(2016年9月~2018年3月):基於開源Greenplum構建數據倉庫,首先探索了數倉大庫模式,但因爲商家衆多,且增加速度快,把商家分攤到中等數倉庫,在商家增加的同時添加中等數倉庫個數方式更符合業務邏輯和業務發展;
  • 成熟期(2018年3月~今):數據庫全面擁抱阿里雲,數據倉庫所有采用ADB PG構建,ADB PG承載了離線批處理和在線分析查詢等業務。

聚水潭數倉「一路向北」遷移及雙十一保障

每一年雙十一對電商平臺是一次全面系統穩定性考察、也是易用性和性能的最好練兵場。阿里雲聚石塔電商雲平臺在2019年8月啓動「一路向北」遷移,將華東機房服務總體搬遷到張北,提供更大擴展和高性價比服務。聚水潭ADB PG數倉在遷移過程當中,即開始了雙十一的規劃。在「一路向北」準備期間,對聚水潭三十多個ADB PG實例進行了水位摸底、瓶頸分析和雙十一業務預期調研,對業務量大、增加迅速的實例進行了針對性調整及擴容。併發

針對雙十一當天增量數據暴增的狀況,在雙十一前對離線批處理和在線報表業務進行了壓測,壓測在變配/擴容/新購實例的基礎上進行,壓測效果知足業務需求。此外,ADB PG在雙十一前還進行了實例備份巡檢、Xid巡檢、磁盤容量巡檢、CPU巡檢等,確保聚水潭雙十一輩子產實例的萬無一失。同時雙十一當天及次日派工程師到客戶現場進行重點保障。目前聚水潭共計有ADB PG三十多個實例,總計1348 CPU覈資源。框架

AnalyticDB for PostgreSQL支撐聚水潭大規模數倉的核心技術

阿里雲AnalyticDB for PostgreSQL爲採用MPP架構的分佈式集羣數據庫,完備支持SQL 2003,高度兼容Oracle語法,支持PL/SQL存儲過程,觸發器,支持標準數據庫事務ACID。ADB PG經過行存儲、列存儲、多種分區表和索引等機制,能夠支持海量數據的在線交付分析,也支持ETL批處理任務。以下是支持聚水潭海量數據倉庫業務的關鍵技術點:分佈式

  1. 高壓縮比列存儲
    ADB PG支持數據按列存儲或按列存儲。對於頻繁更新的數據,建議採用行存儲,而對於少許更新的大寬表,能夠採用列存儲。列存儲除了能夠實現高性能的全表聚合外,還具有存儲的高壓縮比。在聚水潭的數據倉庫裏,列存儲數據廣泛達到4倍以上的數據壓縮率,從而極大的節省空間,下降成本。
  2. 複雜SQL優化
    核心數據倉庫的ETL過程,每每都是複雜的多表關聯聚合,最優的執行路徑會帶來數量級上的性能提高。ADB PG具有完備的CBO代價優化器,同時Cascade的SQL優化框架,能夠很好的將RBO規則優化同CBO代價優化相互結合,從而指定最優的分佈式執行計劃,保證ETL的執行性能。
  3. 高性能執行
    ADB PG支持多種計劃機制,包括支持表按區間或者值進行分區,支持標準BTree索引,Bitmap位圖索引等,從而保證高性能的分析計算性能。

AnalyticDB for PostgreSQL 產品技術展望

ADB PG 2019年末會上線新一代向量化計算引擎,對於標準TPC-H OLAP benchmark 查詢性能提高1倍以上。當前公測中的最新版本ADB PG 6.0,HTAP能力大幅加強,標準TPC-C OLTP benchmark 支持 20w tpmC,從而對混合複雜場景,高併發 QPS 場景,性能有了質的提高。ADB PG 目前推出一元試用一個月活動,基於其完備功能,卓越性能,是阿里雲平臺上快速構建海量實時數倉的最優選擇。 https://www.aliyun.com/product/gpdb高併發


本文做者:陸封工具

閱讀原文性能

本文爲阿里雲原創內容,未經容許不得轉載。

相關文章
相關標籤/搜索