盒馬新零售基於DataWorks搭建數據中臺的實踐

你們好,我叫許日花名歡伯,在2016年盒馬早期的時候,我就轉到了盒馬的事業部做爲在線數據平臺的研發負責人,如今阿里雲的計算平臺負責DataWorks的建模引擎團隊。今天的分享內容也來源於另外一位嘉賓李啓平(首義),他一直是盒馬從初創到如今的數據研發負責人,有很是資深的數倉及數據中臺建設的經驗,以前也是阿里巴巴國際業務的數倉負責人。今天我給你們分享一下,盒馬新零售基於DataWorks搭建數據中臺的實踐。算法

1、盒馬的商業模式

你們作數據的話,首先很重要的一點就是必定要懂業務。以前有位同窗問我,說數據中臺很難建。在咱們看來,數據是跟業務息息相關的,咱們去構建整個數據中臺的時候,首先要對業務有一個很是深入的理解。盒馬是近兩三年阿里出現的一個新的業務,有一些同窗應該體驗過,包括北京、上海等中國一線二線的城市都覆蓋了盒馬鮮生的門店。數據庫

幻燈片3.JPG

上圖就是盒馬商業模式的架構圖,業務圍繞主要是兩點,一個是線上,一個是線下。盒馬的業務雖然叫作O2O,可是比較有意思的一個點是,盒馬的O2O跟早期的O2O是不同的。之前O2O叫 Online to Offline,盒馬的O2O是什麼?是Offline to Online,目標要把線下的流量引入到線上,用線下的體驗去讓用戶願意到線上去購買,而且保證線下的品質跟線上的品質是同樣的,不會出現線上是一個電商特供版,看似很便宜,可是你拿到的東西和線下是不同的。編程

基於咱們O2O的業務架構,同時盒馬的客戶羣體是頗有意思的。他們大部分是以家庭爲單位的,就像我買盒馬的時候,個人女兒、個人父母也都喜歡盒馬,我是一個線上客戶,能夠在線上下單。那像老一輩他不會去用APP購物的時候,他就會到線下去購買,他買的東西是跟我同樣的,包括我女兒,她可能不會購物,可是盒馬有餐飲,她很喜歡去盒馬吃海鮮,經過這種業務的閉環與傳承性,來保證業務的發展與口碑。安全

幻燈片4.JPG

盒馬定了這種商業模式以後,須要開始構建它的業務架構,那麼這個架構應該是什麼樣子?第一它要作線上線下的一體化,保證020的目標。同時確認了這是一個生鮮電商的業務,生鮮電商基本上跟傳統的標品電商作了一個差別化的區分。第三個是多功能門店,可以融合銷售展現、倉儲、分揀、線上等業務形態。第四是限時配送:三千米30分鐘,其實打破了以前電商平臺引覺得豪的當日達跟第二天達這種物流,直到目前盒馬這種限時配送在業界仍是屬於比較領先的。第五就是盒馬的外賣,今天你很是想吃一個東西,可是你又不會作飯,盒馬會幫你把這個東西作好,或者你會作菜,可是你不會殺魚,或者是殺雞之類的,盒馬會幫你把這個作好,而後再幫你送過去。最後還有很重要一點,由於咱們提到了門店的價值,盒馬的門店不是傳統的購物,它有一個倉的設置,剛纔說的能夠作線上和線下,你線下去看的是門店,對於線上來講他就是個倉。網絡

2、盒馬技術架構與原型

幻燈片5.JPG

肯定業務模式後,咱們要作技術架構的設計。其實早期盒馬有過必定的糾結,由於發現作零售,作門店,作商超,不少傳統的軟件廠商有一個現成的軟件體系,好比說ERP、WMS。那咱們是否是買一套就能夠了?可是當時盒馬是堅決了全部的產品技術的業務系統,包括數字化系統都要自建。由於盒馬須要對不少傳統業務作了一個全面的數字化,包括交易、門店、倉儲、運配、採購、供應鏈、勞動力等等。數據結構

如今傳統的ERP軟件或者是物流軟件,它也作了數字化,可是很重要區別是,咱們作數字化不是隻是爲了簡單的數字化,把數據結構化,更重要的是爲上層策略層進行一個很是重要的支撐,咱們對流量、物流履約、流程優化、財務策略進行了一個很是好的智能化的支持。在這裏我能夠稍微分享一下,咱們以前也調研過一些線下有門店的大型零售商超企業,他們也作線上的APP,但他們的庫存線上線下是隔離的,若是你總共有100條魚,他會預先分配好,線上只賣10條,賣完以後線上就沒有了,而盒馬這100條是線上和線下先到先得,不會去分兩撥。經過這種策略模式,基本上就把整個線下線上的數據和商品所有打通。架構

再一個很重要的一點,剛纔講的一些業務,你會發如今阿里的不少業務團隊是分開的,好比菜鳥只負責物流,淘寶只負責營銷和交易,目前整個經濟體的業務都在走向融合。可是盒馬爲了去完成本身的業務閉環,全部的系統從交易門店、倉儲運費、採購供應鏈、勞動力所有是自建,而且能讓他們經過一個協同層把全部的業務打通,咱們有生意計劃、供應鏈管理、協同管理、全渠道多業態,而且提供了一個閉環的解決方案。運維

閉環中很是重要的一點是最右側的一個數據層,若是沒有咱們統一的數據中臺建設,是很難去支撐整個企業工程的,這也是我今天會重點跟你們介紹的這部分。編輯器

幻燈片6.JPG

咱們說到數據中臺,其實在阿里巴巴,數據中臺不只是一個解決方案,它也是一個團隊的職能,在盒馬是有一個獨立的數據中臺團隊去支持這塊業務的。咱們是把數據做爲一種資產,跟盒馬的商品、會員,包括設備是一樣重要的。盒馬數據中臺的同窗,他們是資產的建設者、管理者和運營者,而且要經過這些資產去驅動整個零售供應鏈全鏈路、智能化的升級。其中最主要的是咱們會去採集、管理、建設這份數據,而且能讓這份數據在業務上能更好的使用起來。函數

幻燈片7.JPG

上圖是盒馬的數據平臺的一個總體架構,這部分會有必定的特殊性,也有一些通用性。

首先說一下通用性,咱們整個基礎設施是跟阿里巴巴集團全部的部門是同樣的,採用的是阿里雲的基礎設施,而且在整個數據分層這邊,咱們有源數據,源數據基本上都是來自於業務系統。接入層這邊相對來講盒馬會比較複雜一點,剛纔說的盒馬是全渠道,咱們有APP,有線下,還有咱們配送員的電動車,還有盒馬內部的一些懸掛鏈、iot、APP、人力資源等,因此這裏面就會出現不少結構化和非結構化的數據,咱們經過數據加工層去把咱們非結構化的數據進行必定的加工,最終會造成很是重要的數據資產層。

數據資產層構建以後就會有必定的業務含義,這部分數據是能夠直接被業務去使用的。可是咱們在這個數據資產層上又會去定一層數據服務,讓數據使用起來會更方便,就是開箱即用。還有一塊,到了服務這一層,他可能仍是個無形的,以前有同窗也問我,說今天咱們但願業務用戶能直接去用數據,而不是說去到不少表裏面去查數據,這方面盒馬用的是數據應用層,咱們會創建不少數據產品,經過產品化的方式給業務去提供真正的數據使用。最後咱們盒馬這邊產品形式會特別多,咱們在不一樣的端經過PC、釘釘、掌中寶,還有不少iot的小設備,深圳可能就是一個小的黑白的屏幕,都會有數據的透傳。而且在最右側咱們有一套管理體系,經過這種管理體系,讓咱們整個運營和運維能夠有效地執行起來。那麼這種架構圖,就是盒馬理解的一個偏業務型的數據中臺分層架構圖。

幻燈片8.JPG

那麼基於這種業務型的數據中臺分層架構,咱們又設計了一套數據中臺技術架構。其實你們作過大數據的話,在數據採集的時候常常會碰到,我同時有離線和在線的計算,那麼離線計算咱們基於MaxCompute,阿里巴巴幾乎全部的離線數據都放在MaxCompute上,2020年雙11 MaxCompute每日數據處理量超過1000PB,達到EB級。實時計算咱們是基於Flink,計算的性能也很是強大。還有一塊是咱們要去作數據的存儲,存儲裏面其實盒馬這邊會比較重地依賴在線存儲,譬如說Lindorm就是kv,還有MMaxCompute交互式分析(Hologres)以及在線搜索Elasticsearch,而且咱們會把這些存儲變成一個個數據服務。數據服務的話就會有指標明細,還有特徵、標籤等等,這些數據咱們會推廣到運營最常使用的一些設備、運營平臺、釘釘移動辦公、智能化管理等,這些更可能是runtime層面的。咱們在整個集市運營層面,有元數據、數據質量、容災管控、數據治理等等。這個技術架構圖,咱們更多的是當成一個技術需求架構圖,是咱們技術團隊在作數據中臺的時候須要去作的一些事情。

3、盒馬基於DataWorks的數據中臺方案

當咱們盒馬的商業模式,業務產品技術架構,以及數據中臺的技術需求整理以後,咱們要開始作一個數據中臺的技術選型,或者是作一個技術調研,什麼樣的產品什麼樣的系統能夠去支撐咱們整套技術架構。以前說到咱們的業務系統是自研的,但咱們整個數據中臺的技術盒馬最終選擇是不自研,由於阿里雲上已經有很是成熟的產品體系讓咱們去構建盒馬本身的數據中臺。大數據計算引擎咱們使用的是集團一直在使用的MaxCompute,那麼構建數據中臺的數據開發與治理工具咱們作了調研,最終選擇了DataWorks,下面就是DataWorks的總體架構圖:

幻燈片9.JPG

DataWorks對外提供了數據集成,它有不少這種批量、增量、實時、整庫的數據集成,可以支持盒馬這麼多且複雜的數據源,目前DataWorks數據集成離線支持50+種數據源,實時支持10+種數據源,不管數據源在公網、IDC、VPC內等環境,均可以作到安全、穩定。靈活、快速的數據集成。DataWorks還有一套元數據統一管理服務,支持統一的任務調度、同時提供了很是豐富的一站式的數據開發工具,覆蓋了數據開發的整個生命週期表,極大地提升了咱們的數據開發效率。上層還包括了數據治理、數據服務等,而且它提供了很重要的開放平臺。由於以前說到盒馬是一個很是獨立、豐富的業務,不少業務系統都是自研的,有本身的研發團隊,咱們須要經過DataWorks OpenAPI對不少功能作一個二次的加工以及和各類自研系統、項目系統的集成,目前DataWorks提供的100多個OpenAPI可讓咱們很是簡單地去實現這個需求。

幻燈片10.JPG

那麼咱們再看一下這個數據中臺技術需求圖,咱們去跟DataWorks作一個比對,數據採集部分對應了DataWorks提供的數據集成,基本上咱們左邊的這些數據同步的需求DataWorks均可以知足。

還有咱們作數據開發,在數據開發層,DataWorks經過它的DataStudio、HoloStudio和StreamStudio能夠同時完成咱們的流、批、實時的開發,而且它還提供了數據服務跟開放接口的功能,能夠經過OpenAPI的方式跟咱們現有的系統和產品作一個集成,還有很關鍵的一點,DataWorks提供了數據地圖和數據治理的能力,這兩個功能看似是邊緣功能,可是在咱們盒馬甚至在阿里巴巴起到了一個很是關鍵的做用,這塊咱們後面會繼續展開。

幻燈片11.JPG

前面咱們更多地能夠當作是數據中臺的準備過程,咱們瞭解了業務,作了設計,而且作了一個技術選型,那麼接下來在阿里作事情很重要一點就是作以前要肯定一個明確的目標,目標不表明KPI,他也有多是一個使命或者初衷。盒馬數據中臺的目標是什麼?盒馬的數據中臺是要創建一個數據豐富,全鏈路多維度,質量可靠(就是口徑要標準,結果要準確),而且要運行穩定,產出及時無端障的一箇中間層,不少人會說這是個數據集市,不要緊,它就是個中間層。還有很重要一點是咱們要爲上層業務提供可靠的數據服務,數據產品及業務應用,其實這就限定了它不是一個簡單的數倉,也不是一個簡單的數據集市,而是一個數據中臺,是可被業務去不斷使用的數據中臺。若是咱們只是把數據同步加工,放到MaxCompute或者開源的Hadoop或者一個數據庫裏面,那他還只是個倉。數據中臺咱們定義是可被業務直接去使用的,甚至是要給業務帶來業務價值的,才叫數據中臺。

定義這樣一個目標以後,咱們要開始作一個分步拆解,咱們主要作什麼?首先要作一個指標體系的設計,由於業務去使用不是一個表的字段,須要有一個數據模型設計的支撐,讓咱們去把數據變得更標準,而且咱們還要去作數據處理任務的開發。今天咱們有一些智能化構建數倉的方式,但這可能更多的是一個將來,如今咱們不得不面臨一個問題,咱們仍是靠人工靠人肉去作數據開發。而且咱們要把這些數據經過數據服務的方式開放出去,讓業務去使用,數據服務的形式不限於 Table、API和Report,甚至是一個產品或者其餘的任何一個東西。

幻燈片12.JPG

上圖多是你們在網上看到最多的關於數據模型或者數據集市構建的分層圖,那就是老生常談,ODS、DWD、DWS和ADS。其實雖然有不少概念和理念,可是每一個人對這層的理解是不同的,盒馬有一套本身很是嚴格清晰的定義,每一層要有每層本身的一個特色和職責。簡單概述的話,ADS必定要是面向業務的,不是面向開發的,你這部分數據讓業務能最短的時間去理解,甚至直接使用,還有DWS必須是指標,也是我剛纔前面講的指標體系的一個承載體,都由DWS去作,DWS彙總基本上就是ADS的支撐。還有一層是DWD,就是咱們常常說的明細層,明細層怎麼建呢?咱們採用的是維度建模的方式,咱們有維表,有事實表,那維表也有不少層級維度,好比枚舉維度,事實表咱們有周期快照。固然在這裏有一個很重要的點,DWD的字段必須是可被直接理解的,不要有二義性,一旦有二義性的時候,DWS使用的時候會有問題,會致使整個上游應用都有問題。ODS基本上你們理解應該都保持一致,就是業務數據直接同步過來。可是如今有一些架構的演變,你們喜歡在ODS作一個初步的ETL處理,這樣會致使ODS的數據跟咱們業務的數據不一致。其實在盒馬是不容許這樣作的,緣由很簡單,咱們要保證咱們的ODS跟業務庫是保持一致的,這樣當咱們出現問題的時候,咱們能很快定位到問題的緣由。一旦作了ETL,有可能ETL的過程是有bug的,會致使兩邊數據不一致。因此盒馬是嚴格要求從業務庫的數據到ODS是不容許作任何的邏輯的處理。若是出現問題,只能是中間件或者是其餘的任何存儲出了問題致使的,不該該是業務邏輯致使的。

4、盒馬基於DataWorks構建數據中臺

幻燈片13.JPG

前面更多的是講盒馬這邊的一些數據中臺建設的思想、設計、架構和一些目標及要求,接下來我會去講盒馬如何使用DataWorks構建數據中臺以及在使用DataWorks平臺的一些心得。DataWorks這個平臺不只僅是給盒馬用的,還有阿里巴巴集團幾乎全部的業務部門,天天集團內部有數萬名運營小二/產品經理/數據工程師/算法工程師/研發等在使用DataWorks,同時DataWorks還服務大量阿里雲上的用戶。因此它的設計不少是偏向於開放的、通用的、靈活的。這個時候咱們在使用的時會致使一些過於靈活或者是沒有標準出現等一系列的問題,後面的內容就會針盒馬的一些經驗和你們分享當時的一些心得。

幻燈片14.JPG

首先數據同步是建數據中臺的第一步,若是數據進不了倉,那麼數據中臺就沒辦法構建。盒馬在作數據同步的時候,會有幾個要求,好比盒馬的全部業務數據都是統一同步到一個項目,而且只同步一份,不容許重複同步,這樣的話方便咱們管理,減小成本,同時保證了數據不要有二義性。數據源出問題了,那後邊數據就都有錯,因此咱們必定要保證數據源100%正確。而後從數據回溯與審計考慮,數據生命週期設置的是一個永久保存,哪怕業務系統由於一些線上庫的流量問題,會有一些歸檔、刪除,但當他們想再使用歷史數據的時候,能夠經過ODS這層原封不動地再還原回去。

幻燈片15.JPG

第二塊就是數據開發,數據開發這部分基本上是很考驗我的能力的,基本上你們都是使用SQL。咱們對於數據開發這部分是有必定的心得,簡單來講就是數據處理過程是業務邏輯的實現,既要保證業務邏輯的正確性,也要保證數據產出的穩定性、時效性和合理性。DataWorks進行數據開發的編輯器,除了提供了比較好的coding能力之外,也提供了一些處理流程的可視化的方式,幫助咱們去作一些code review,甚至一些校驗,這個功能在咱們平常使用中是很是有幫助的。

幻燈片16.JPG

整個數據開發的過程,由於我自己也是作 Java的同窗,咱們知道每一種編程都有必定的編程範式,咱們在整個數據開發的過程當中也去抽象了幾個步驟,首先是一個代碼轉換,這個代碼轉換主要是幹什麼用的?剛纔講過業務系統不少是爲了完成一個業務流程,它有不少這種個性化的處理,尤爲是你們作互聯網,爲了解決一些性能問題或者是filter的問題,會作一些Json字段,媒體字段、分隔符等等,這樣的內容會出現二義性。咱們在開發中會有個代碼轉換,好比說把一些枚舉的東西轉成一個實際會看得懂的東西,譬如說0究竟是什麼?2是什麼?或者a是什麼?咱們會作代碼轉換。還有個格式轉換,咱們有一些業務系統,它很難標準,譬如說時間,有的是用的是timestamp,有的是存字符串,有的是存yymm這些,雖然它們都表明時間,可是格式不同,在數據集市的構建過程當中,它必定要求裏面的數據格式必須是一致的,咱們會去把非標準的數據格式經過格式轉換的方式變成一個標準的格式。

還有一個是業務判斷,業務判斷這裏邊基本上就是經過條件的方式得出一個業務結果。舉個例子,年輕人在業務系統裏面確定不會算一個叫「年輕人」這樣的字段或業務邏輯,若是有年齡數據,那麼咱們在梳理的時候會說小於30歲的咱們叫年輕人等等,這個就是咱們說的業務判斷。數據鏈接這塊,基本上很簡單,就是一個表關聯去補數據。另一個數據聚合,咱們在作DWS的時候會大量用到數據聚合的這部分。還有數據過濾,咱們常常會碰到一些無效的數據,咱們經過數據庫這個方式把這些無效的數據給處理掉。再一個是條件選擇,這個條件選擇基本上也就是一些when的東西,跟數據過濾稍微有點類似。最後是業務解析,其實業務解析是咱們最常常用到的,由於如今NoSQL或者是MySQL也支持了,甚至有一些業務團隊用了Mongo,那一個大字段裏邊有不少業務表示,咱們這幾年在數據集市作DWD的時候,必定要把這種Json字段或者map字段的格式所有解析成固定的列字段。由於剛纔咱們說過它的內容必需要一致的,讓用戶直接能夠看到。在這裏面分享個心得,就是業務邏輯會盡可能收口在數據明細層,目的是保證數據的一致性,簡化下游使用。源頭上的變化,也能夠經過代碼或格式等轉換,保證實細層結構的穩定性,避免給下游帶來更多的變化。好的模型也須要上游業務系統協同開發,一要業務系統有合理的設計,二要變動能及時的感知,就是說數據中臺的建設不是數據團隊一個團隊的事情,也要跟業務團隊去作一個聯動和共創。

幻燈片17.JPG

剛纔講的這些部分更多的是開發階段,若是DataWorks只完成這些的話,咱們認爲它就是一個IDE,可是DataWorks是一個一站式大數據開發治理平臺,開發平臺很重要一點是它要去保證它的運行,如何去保證咱們作數據開發的代碼能運行起來?就是經過DataWorks的任務調度。盒馬的業務是很是複雜的,有30分鐘送達,還有第二天達、三日達,還有一些預售預購等等。這些若是是簡單的調度系統可能就支持不了,DataWorks這邊比較好的一點是,它提供了很是靈活的任務調度的週期選擇,好比說月、周、日。盒馬的業務是一個閉環,他每一個業務是有相關性的,那麼反過來盒馬的數據任務也是有相關性的,這個時候整個盒馬的任務調度鏈路是很是複雜的。

在整個過程裏面,盒馬也有不少嘗試、創新,也踩過了不少坑,這邊就給你們分享一下,就是DataWorks任務節點未起調或者在錯誤的時間起調均可能出現數據缺失或者是錯誤。這裏就要保證咱們數據開發對於每一個線上任務的任何問題都要及時處理,由於每一個問題都會形成一個數據的問題。合理的調度策略既能夠保障數據產出的正確性,也能夠保障數據產出的及時性。咱們但願他一天產出,那就不要把它變成一小時,咱們就按一天就能夠了,若是三天就是三天。

幻燈片18.JPG

經過這幾步,正常狀況下,就是咱們一個項目或者一個需求,按照這種方式去完成,咱們認爲一個數據開發工程師的任務就結束了。可是通常狀況下不是這個樣子的,由於數據中臺是一個偏商業化的事情,因此說它一旦出問題,在阿里的話,影響是特別大的。業務線它有核心繫統、非核心繫統,部門核心系統、集團核心系統,經過這種方式有不一樣的保障,還有業務團隊有p一、p二、p三、p4的方式去定義故障總級。數據業務跟正常業務系統不太同樣,咱們這邊是依託了DataWorks來去作整個線上大數據業務任務的穩定性保障。其中DataWorks這邊提供了很重要的一個模塊,就是數據質量監控。數據質量監控其實咱們更多的是能及時去發現一些問題,保證當業務有影響的時候,咱們第一時間就知道。由於有的時候業務使用仍是有必定的延遲性的。這裏面提供了不少能力,好比說數據質量的一些監控,數據質量監控的目的是保障數據產出的正確性,而且監控範圍必定要比較全,不只限於表大小的變化,函數的變化,字段枚舉值和一些主鍵的衝突,甚至一些非法格式,而且很重要一點就是異常值會觸發報警或中斷數據處理過程,而後值班人員要第一時間介入。

幻燈片19.JPG

上面講的是監控的問題,可是一旦監控不少就會致使監控氾濫,會有不少預警報警出來,那麼DataWorks也提供了另外一種能力,就是任務基線的管理。我剛纔講過業務有分級,咱們線上業務也有一些重要性和非重要性的任務,咱們經過這種基線的方式去把這些任務進行一個隔離。基線這邊盒馬的經驗就是:基線是保障數據資產的及時產出,優先級決定了系統硬件資源的保障力度,也決定了運營人員值班的保障力度,最重要的業務必定要放8級基線,這樣會保證你的最重要的任務第一時間產出。而且DataWorks有一個很好的功能,DataWorks提供了一些回刷工具,當個人基線出問題或者破線的時候,能夠經過回刷工具快速地把數據回刷出來,而且DataWorks智能監控功能會經過一些基線下的任務狀態和歷史的運行時長等,去幫你提早預估出是否存在破線的風險,這種智能化地監控與風險的預估仍是很是有用的。

幻燈片20.JPG

那麼作好數據質量的監控跟基線,基本上就保證了咱們的大數據任務和業務的穩定、正常地運行,可是還有很重要的一點就是數據資產的治理。阿里巴巴是提倡數據的公司,它作轉變的一個很是大的里程碑就是阿里巴巴在數據方面的存儲和計算的硬件成本超過了業務系統的硬件成本。這也致使了阿里巴巴的CTO會去把數據資產治理做爲它的一個很是核心的任務。DataWorks是整個阿里巴巴集團數據使用的體量最大的平臺,甚至是一個惟一的平臺,並且也提供了數據資產的模塊叫UDAP,這裏面基本上是能夠經過多方面多維度,從項目到表甚至到我的,全局查看今天整個資源使用狀況是什麼樣的,而且很重要的一點是給你提供了一個健康分的概念。這個健康分能夠綜合地看到每一個業務部門內每一個我的的排名狀況。作治理最簡單的方式就是先把頭部打掉,阿里是這麼作的,先治理頭部健康分最低的,而後把健康分拉上來,整個水平就下來了。而且它提供了不少數據可視化的工具,可讓你很快的看到治理的效果。盒馬在這方面作的一些心得:主要目標是優化存儲與計算,下降成本,提高資源使用率;技術團隊會建不少項目空間,咱們須要與技術團隊共建,一塊兒去完成數據治理。盒馬一些比較好用的手段就是無用的應用要下線、表生命週期管理、重複計算治理、還有很重要的是計算資源暴力掃描,咱們是嚴格禁止暴力掃描的。UDAP裏面的一些功能咱們如今在DataWorks的資源優化模塊也可以實現,好比一些重複表、重複數據開發與數據集成任務等。

幻燈片21.JPG

作完以上這些,咱們認爲數據中臺該作的事情就差很少了,最後還有很重要的一點就是數據安全管理。隨着互聯網的發展,中國應該是持續基本上每年都會出一個相關的網絡法,好比說電子商務法,而後還有網絡安全法等等,而後最近應該是草擬數據安全法。做爲一家企業,對法律的遵照是特別重要的。DataWorks做爲阿里大數據最統一的一個數據入口和出口,作了不少這種數據安全管理的手段,它能夠從引擎層面進行一個管控,而且經過項目層面進行管控,同時能夠到表層面,甚至到字段層面,在字段層面,每一個字段它有等級,好比說有一些字段的等級是必需要到部門負責人或者是總裁層面才能夠審批經過的,再好比說有一些咱們認爲即便審批經過了,它也有必定的風險的時候,好比說身份證號碼,手機號碼等,咱們會提供一種技術叫數據脫敏,這個數據被拿走是被脫敏過的,不影響你的統計或者分析,可是你不可見。

盒馬在數據安全治理這邊基本上跟集團是比較相似的,阿里巴巴集團有一套統一的數據管理方法,它是跟組織架構打通的,咱們員工離職或者轉崗,他的權限會自動收回。在任何企業包括阿里,他的人員變更是很是頻繁的,經過這樣的功能與體系,咱們在保證數據安全的前提下去更好地應用數據。

5、盒馬基於DataWorks構建數據中臺的價值

幻燈片22.JPG

以前講的都是基於DataWorks來構建盒馬的數據中臺,最先提到數據中臺必定要是服務業務的,我如今也介紹一下盒馬的數據中臺是如何爲業務服務。頗有幸我跟首義是見證了盒馬從0到1再到N家店快速發展的一個過程,一家企業它用數據的過程也是這樣由淺而深的過程。首先你們都同樣,最開始我只是看數據,我有什麼數據,而後經過數據去看一些問題,作一些人工的輔助和決策,可是盒馬它的擴張是特別快的,最多的時候一年開了100家店,當它的業務形態發生變化,經過簡單的數據報表和數據可視化,是沒法再支撐這個業務了。因此說咱們也作了不少精細化的管控,好比說品類診斷、庫存健康,告訴這個業務你如今有哪些問題,而不是讓他們用報表去作再去發現問題。

那麼還有一塊是盒馬跟電商很是不同的點,它是屬於新零售,零售受天然因素的影響特別大,譬如說天氣或者是節假日,甚至一個交通的事故都會影響到盒馬的業務。咱們針對這種狀況,有不少這種預測類的應用,好比銷量預測。盒馬的銷量預測是要求到小時,每一個小時都要作迭代,還有一些仿真系統,當我出現什麼問題的時候,我經過仿真系統預測到或者感知到有什麼樣的風險。最後還有很重要的一點就是說預測完,盒馬的業務剛纔講過,它有限時預定30分鐘送達,以及由於你們買過盒馬的日日鮮商品,就是商品當天就要賣出,這些狀況靠人是絕對沒有辦法去感知的。盒馬的CTO提過,他要求咱們把幾百張報表所有幹掉,把這些全部經過人看數據發現問題的場景,所有集中到業務系統裏面。譬如說日日鮮,當咱們發現商品已經賣不出去了,只有三個小時了,須要一個打折,不須要人蔘與,經過咱們的數據的預測,跟這個算法自動去觸發打折,把這個商品賣出去。我在阿里接近10年,盒馬這些應用其實應該是爲數很少真正地把BI跟AI結合在一塊兒的數據中臺的應用。

以上就是本次分享的所有內容,謝謝你們。

原文連接本文爲阿里雲原創內容,未經容許不得轉載。

相關文章
相關標籤/搜索