AliExpress智能營銷引擎大揭祕 - AnalyticDB如何作到快準狠省

業務介紹

AliExpress(簡稱AE)是從集團內wholesale孵化出來面向全球消費者的B2C電商平臺,目前也是全球化電商業務的排頭兵。當前AE爲全球220+個國家提供在線購物服務,支持3端(PC、Msite和APP)、18+種語言,有5個獨立分站(印尼、俄羅斯、巴西、西班牙、法國)和2個本地站(西班牙Plaza和俄羅斯Tmall)爲當地提供更精細化的服務。算法

業務挑戰

營銷是電商業務的核心場景,本質是解決人貨場的匹配問題。而大數據時代,傳統的小二人工運營的方式愈來愈力不從心,AE數據智能中臺賦能小二們在海量用戶和商品裏進行人貨匹配,釋放小二們的壓力,從而更快、更精準的營銷。
image.png
去年AE數據智能中臺在雙十一中小試牛刀,效果獲得了業務團隊的廣泛承認。然而今年因爲疫情等各類複雜的國際形勢,對AE智能化產生了更多的賦能場景,而這些場景對支撐業務的數據系統也提出了更高的要求和挑戰。sql

時效性---速度要快

AE的場景基本都是實時營銷,若是給用戶的營銷是基於非實時的數據計算出來的結果,會大幅下降運營的決策效率。以會場調控舉例,須要在雙十一大促期間從修改選品池條件到生效到會場總體時間穩定在10分鐘之內,運營根據實時看板的秒級粒度的大促數據表現,以修改選品規則進行實時調控,解決商品疲勞、會場投放效果差、調整會場貨品結構佈局等問題。數據庫

智能型---效果要準

相對於傳統的小二憑藉自身知識營銷,AE數據智能平臺須要支持各類分析需求,既有基於規則的簡單分析需求,又有大數據分析需求,越多的數據緯度,越多的成交數據,分析出來的結果就越精確,效果越好。以人羣洞察爲例,須要使用各類聚類算法嘗試對用戶進行分組,從而找到類似的客羣。傳統的數據庫已經不知足這種複雜分析需求。架構

耐操型---使用要狠

在大促期間,既有來自於多用戶高QPS的分析查詢,又有各類複雜離線需求,同時這些離線計算不能影響用戶的即時分析。以用戶洞察爲例,既須要秒級響應用戶TGI的計算,又須要支持複雜聚類算法的計算;而實時會場調控也須要支持高QPS的在線統計和將大數據量結果同時導出給會場展示引擎,同時還有大數據量的實時寫入,還須要數據實時可見,這樣狠的使用方式,通常的數倉根本知足不了。併發

簡易型---使用要省

在知足以上條件的狀況下,每每會使用鏈路很長的複雜大數據方案,同時對於開發者,既要去掌握多平臺的開發能力,又要在使用上區分不一樣的場景使用不一樣的系統,這個開發運維成本都很是的大。故AE數據智能平臺須要一個數倉,使用簡單的sql就能夠知足用戶的因此需求,達到事半功倍的效果。運維

AnalyticDB--快準狠省的雲原生實時數倉

AnalyticDB是阿里雲自研的雲原生數倉,全面兼容MySQL語法,爲分析而生,擁有出色的分析性能。分佈式

數據寫入實時可見

會場實時調控對數據的時效性要求高,AnalyticDB數據寫入後實時可見,可使運營小二的調控效果實時的反映到會場上,同時AE會場的實時效果數據,從產生到分析到決策應用,從原來的天級別或者小時級別縮短在10分鐘之內。數據寫入實時可見充分知足了AE對時效性的要求。高併發

高性能高並行度

AnalyticDB不只數據寫入生效快,計算也快得當仁不讓,AnalyticDB在業界權威性能TPC-DS榜上連續兩年奪得第一名,擁有行列混存、自適應索引,結合向量化的分佈式執行引擎實現大部分複雜查詢在毫秒級完成,全面知足AE智能營銷各個場景的性能需求:人羣洞察場景中人羣間的DiffScore計算秒級響應;基於AnalyticDB的進行分析決策,在高峯期平均每小時進行了4800次有效流量調控,平均每分鐘進行80次。佈局

支持各類大數據分析需求

AnalyticDB不只支持高QPS的即時查詢,同時也支持各類類型的大數據分析能力,用戶洞察業務裏AnalyticDB支持了業務的多種聚類算法,從而知足AE的智能化需求。性能

在離線一體化數倉

藉助混合負載管理能力,無論用戶的查詢狀況多「狠」,AnalyticDB均可以以最高性能完成用戶的全部查詢,同時保證在線查詢不受離線/batch查詢影響。在實時會場調控中,AnalyticDB支撐了平均每分鐘80次的導出,每次導出平均100w條記錄,1w/s的實時寫入、10qps的秒級查詢的混合壓力。

MySQL兼容

好用是數據庫價值真正的體現,AnalyticDB高度兼容MySQL,基本無需修改代碼便可像使用MySQL同樣使用AnalyticDB,簡單易用。對於AE智能平臺的用戶--商家和小二來說,會MySQL語法就掌握了全套的大數據分析能力。在AE業務裏用戶圈選,分析一體化,tgi,聚類計算等等都是直接使用SQL所有完成。

業務實踐

業務架構

image.png

業務概述

數據智能部使命:致力於全面集成 AliExpress 數據分析體系,以數據服務化的形式,支撐用戶增加、導購營銷、社交互動等業務場景,經過與 AnalyticDB 的深度合做與共建,將原有臃腫的離線數據服務鏈路,打形成快、準、狠、省的實時化鏈路,經過人、貨、場等多維度的標準化數據服務,提高運營小2、商家的運營效率。

架構升級

使用AnalyticDB以前的數據處理鏈路

image.png
在計算引擎框中由於多種計算需求的緣由,引入了兩種計算引擎:

  • MaxCompute: 知足數據批計算需求
  • Pai: 知足算法分析需求

計算出來的結果會同步到兩個地方:

  • 會場展示引擎: 分析的結果對線上生效。
  • HBase:結果存儲在HBase裏供其它業務高QPS查詢。

這樣的方案除了鏈路複雜外,更本質的是知足不了業務實時性需求以及高併發高性能需求。實時會場調控在這條鏈路下時效性平常30分鐘,大促繁忙時2小時以上。

使用AnalyticDB後的數據處理鏈路

AnalyticDB做爲一個雲原生實時倉庫,增長 Embedding Algorithm 模塊,實現了算法與分析的一體化能力,極大的縮短了數據處理鏈路。
image.png

如上,AnalyticDB解決了全部的計算需求。實時會場調控的時效性縮小到6分鐘。AnalyticDB MySQL做爲鏈路核心,支撐了AE業務的快準狠省的智能營銷。在數據時效性、高併發、低延時以及複雜分析等方面提供了強力的保障。

效果展現

圖示摘自 AE 數據銀行商家版,經過實時標籤、AIPL 趨勢分析、實時人羣畫像、秒級人羣生成、效果監控等核心能力,豐富了商家自主運營的手段,目前已成爲商家店鋪運營的核心產品之一。
image.png
店鋪用戶分析
image.png
人羣顯著性特徵分析
image.png
人羣畫像分析
image.png
投放效果分析

將來展望

今年AE智能中臺在營銷場景中藉助AnalyticDB的能力獲得了長足的進步,特別在雙十一大促中,表現絲般順滑。將來將繼續融入AnalyticDB的最新能力進行工程架構上的升級。

全鏈路實時化演進

隨着業界軟硬件技術的發展,全鏈路實時化的路徑變得愈來愈清晰,數據智能部在關注數據內容建設以外,也着手於全鏈路實時化的探索與演進。將來,數據智能部將投入大量的人力,將 AE 的離線鏈路遷移至實時化鏈路,從算法到工程,從數據到服務,依託於 AnalyticDB 的強大能力,加快小二與商家的運營效率,以應對瞬息萬變的全球化電商市場。

數據服務成本下降研究

業務資源隔離

AE的業務繁多,常常出現多個業務共用一個庫,其中有些是雙十一在線重點保障業務,而有些是測試需求臨時搭建的業務,在大促中出現未通過壓測的複雜測試業務搶佔重保業務的資源,做爲AE平臺,要麼增長成本,物理上嚴格分離這兩個業務;要麼進行人工管理這兩個業務的資源。在 AnalyticDB MySQL版新推出的彈性形態下實現了資源組功能,經過新建資源組能夠從現有實例劃分出部分計算節點,這些計算節點資源只歸屬該資源組。AE平臺直接將業務綁定到不一樣的資源組,從而知足內部多租戶隔離、混合負載的需求。資源組的建立、修改、刪除等操做均可以在線實時生效,並能夠經過API與用戶業務系統進行深度融合,實現全自動調配。

存儲計算分離

AE智能營銷通過這麼多的工做取得了很是不錯的效果,但同時AE智能平臺仍時刻關注成本的投入,AnalyticDB高性能實例是按存儲能力來計費的,而不一樣的業務場景計算和存儲的開銷卻不是一致的,甚至相差很大。好比人羣洞察業務來說,聚類算法的計算開銷要求更多的資源,相對於計算,存儲須要的資源是少許的,故後續也須要使用AnalyticDB彈性功能中的存儲計算分離能力進行成本的下降。

彈性擴容

在存儲計算分離的狀況下,可以自動根據負載進行彈性庫容,便於管控。AE業務做爲典型的電商場景來說,具備很明顯的峯值和低谷流量時刻。而目前的AnalyticDB高性能模式是資源預分配模式,在絕大部分低谷流量時刻,資源也是在進行計費。而AnalyticDB新推出的彈性形態下自動彈性擴縮功能能夠在保證業務服務能力的狀況下,同時大幅度下降閒時成本。

數據查詢服務可行性研究

AE智能業務裏不少數據都會在HBase裏存一份,好比如今的架構裏會場的計算結果仍然會在HBase裏放一份,用來後續業務高QPS點查,這個場景AnalyticDB已經具有高QPS點查能力,目前正在展開前期相關工做,進行KV系統的替換,使用AnalyticDB爲AE智能平臺提供全站數據服務。

智能化診斷

須要作好監控和邊界問題的發現機制,在出現問題時可以快速定位。指望可以充分利用AnalyticDB的監控能力,在出現問題前第一時間預警,規避問題的發生。爲此,AnalyticDB將提供全方位、多維度以及準實時的實例運行情況洞察能力,經過對實例內部的各種運行日誌和時序指標進行算法建模,提供出問題前準確預測、出問題時及時告警、處理問題時精準定位的能力,確保不影響用戶上層業務。

原文連接本文爲阿里雲原創內容,未經容許不得轉載。

相關文章
相關標籤/搜索