簡介:Hologres+Flink+DataWorks實時數倉新方案爲伊的家業務帶來了統一數據、統一服務、統一治理、統一存儲的價值,真的作到了開箱即用,所見即所得!
廣州伊的家網絡科技有限公司是一家專一於服務女性的B2B2C電商平臺,業務範圍包括護膚、彩妝、養分美容食品、私人定製服裝、跨境電商等領域。自2008年孵化項目,2011年5月上線天貓商城,全國8大配送中心,妍詩美、妍膳等品牌陸續成立,並於2013年上線了伊的家自主電商平臺,2020年全面啓動品牌升級。伊的家以互聯網主動式服務營銷,打造護膚老師與客戶強鏈接關係,從上到下嚴格貫徹以品質及專業爲基礎,以社交信任作鏈接,以服務得到承認的經營思路,通過持續的創新和積累,成爲社交電商翹楚。數據庫
伊的家是一家集開發、設計、運營、銷售於一體一個B2B2B的電商平臺,服務百萬級會員以外,還同時支持上千級別經銷商和代理商,業務應用多、數據量大、數據查詢併發要求高。性能優化
伊的家技術部門在近3年經歷了高速發展,在發展過程當中,始終堅持業務優先,爲此也進行了應用整合、拆分微服務、聚合分佈式應用的多種技術升級改造,目前整個部門現狀分析以下:網絡
架構方面:多語言、多數據源、技術升級的業務入侵問題明顯;架構
數據方面:應用拆分引起的數據孤島問題,繼而形成大量的數據複製、從新建設問題;併發
應用方面:從業績的角度出發,業務方但願及時準確地看見業績數據,對實時性有了較高需求;運維
效率方面:體系化的流程與工具訴求愈發強烈;分佈式
成本方面:主要問題是既懂大數據又懂業務的人才招聘難,團隊建設成本高微服務
伊的家近幾年業務高速增加,數據量激增,業務複雜度也隨之增大,解決在當前大數據架構之下,「人才儲備難」、「業務升級受限於已有技術」、「雙11活動壓力大」等痛點問題已迫在眉睫。高併發
伊的家技術部門對於技術升級改造的需求有很是明確清晰的定義,主要圍繞關存儲彈性擴縮容、查詢性能優化、OLAP、學習成本、查詢響應、可擴展等角度進行展開,核心關注如下3個問題:工具
1)如何快速完成數據清洗
2)如何快速精準完成數據校驗
3)如何快速進行故障恢復處理
在技術選型時始終堅持「技術選型是第一輩子產力」的原則,堅信技術儲備沒有最好只有更好,堅信技術選型是決定能力差別化所在,堅持提升一次性把事情作對的能力,堅信開放分享、認知升級的重要性。
早期耶基於Hadoop、HBase、Kafaka、Azkaban、Spark、Greenplum等開源大數據產品進行了許多摸索嘗試,經過性能對比最終採用了Greenplum,但最終發現Greenplum併發能力差,只適合分析場景,並不適合高併發的查詢服務。
後來,在阿里雲大數據計算平臺團隊的建議下,伊的家技術部進行了全面架構升級,整個架構由DataWorks、實時計算Flink和Hologres組成,架構簡單、學習成本很是低,僅經過SQL便可輕鬆跑通全鏈路。
下面將會給你們介紹,阿里雲技術產品在伊的家落地的場景最佳實踐
伊的家原客戶關係管理系統(CRM)主要基於MySQL、MQ、Canal以及自研應用組成,爲支持業務系統切斷式升級,技術部門自主研發了一套消息中間件,維護成本較高;基於Binlog、MQ、OLAP等產品自定義的數據開發流程過程繁瑣複雜、維護成本極高,且由於系統要求數據有序對清洗的併發產生了必定的限制。
基於Hologres+DataWorks+實時計算Flink進行架構升級後,直接經過DataWorks數據集成將數據庫數據實時寫入Hologres,而後經過實時計算Flink訂閱Hologres作進一步實時清洗,把結果表更新到數據庫,便可直接服務業務。
總體架構清晰簡單、數據精準、端到端純實時、存儲分析一體化、託管式運維、全自動工具做業,原系統15人花了3個月才完成項目上線,當前架構僅需2天即部署完成。
BI業績系統也能夠理解爲實時GMV大屏,業務數據主要有兩方面的要求:
原架構以下圖圖所示,原始數據層經過Binlog,再通過Canal套件實時寫入MQ,以後根據業務域進行業務數據分層和清洗。任務調度系統更新業績的順序爲「日-月-季度-年」,這個看似完美的方案實際存在着幾個問題:
下圖爲升級後的BI業績系統新架構。經過DataWorks實時同步明細數據至Hologres,基於Hologres數據再增長一份實時計算Flink的實時ETL做業,便可完成「日-月-季度-年」數據的加工,最後基於Hologres對上層應用提供分析查詢服務。整個系統純實時調度、實時性高、秒級延遲、全SQL開發、數據校驗高效。
伊的家的技術部門也一直在思考如何讓應用開發人員也具有大數據開發能力,如何讓大數據不只僅爲大數據團隊所用,還同時爲應用開發團隊所用。
基於實時計算FLink+Hologres+DataWorks實時數倉架構的落地,提高了數據底盤的可複用性,提升了應對業務變化的數據動態調整的靈活性,與應用團隊共同構建起帶數據的應用系統。
伊的家數倉團隊服務在電商業務的同時,還須要支持集團內部業務。集團數倉平臺如市場主流數倉架構、基於開源大數據體系構建,目前也已經全面升級爲Hologres+實時計算Flink+DataWorks實時數倉架構。
Hologres+實時計算Flink+DataWorks實時數倉新方案爲業務上帶來的價值主要以下:
從業務上來講,新的大數據方案真的作到了開箱即用,所見即所得。
在大數據領域,數據規模和業務複雜性是同時制約查詢性能的關鍵因素,在這個過程當中,惟有咱們的開發人員不斷打磨本身的數據模型,當數據模型達到必定成熟度,性能問題便可迎刃而解。
最後,但願你們擁抱技術、擁抱變化、贏在模型,數據服務業務,數據服務應用,讓咱們爲應用而生,爲應用而戰。
做者:劉鬆森 ,伊的家CTO,高級工程師,副教授職稱,國內多所高校客座教授
本文內容由阿里雲實名註冊用戶自發貢獻,版權歸原做者全部,阿里雲開發者社區不擁有其著做權,亦不承擔相應法律責任。具體規則請查看《阿里雲開發者社區用戶服務協議》和《阿里雲開發者社區知識產權保護指引》。若是您發現本社區中有涉嫌抄襲的內容,填寫侵權投訴表單進行舉報,一經查實,本社區將馬上刪除涉嫌侵權內容。