2009年,阿里雲開啓了中國的雲時代。前端
十年市場教育,中國的公有云市場也已經從無到有,邁過了300億元大關,預計到2021年更是能達到900億元的規模。算法
「數據上雲」已經從一個技術詞彙,慢慢轉變成爲企業界的共識:若是想要在信息商業中擁有一席之地,就必需要藉助雲計算的力量,完成企業的數字化轉型。數據庫
只是,數據到底在轉型中扮演什麼樣的角色,要如何利用好數據,數據上雲後如何支持業務,企業須要哪些核心能力?這些問題,對於大多數的非技術業者而言,仍然是知其然不知其因此然。後端
做爲數據業務領域的先行者,阿里雲總裁張建鋒,把數據智能做爲數據處理的核心能力:安全
「今天處理數據絕大部分都不是單純靠算力,算力是基礎,而主要是靠上面的智能化的算法,算法跟各行各業的業務有密切相關,因此阿里巴巴經過與各行各業合做,沉澱了一個完整的智能化平臺。咱們認爲在基礎設施的雲化、核心技術的互聯網化以及在之上疊加大數據+智能化的平臺和能力,完整地組成了阿里雲智能的總體能力框架。這是咱們核心的能力。」服務器
這裏面傳達出了幾個核心信息:網絡
1.雲計算爲數據智能提供了基礎算力;架構
2.行業(經驗轉化而來的)算法是智能處理數據的主要工具;併發
3.數據+智能的平臺和能力,前提是基礎設施的雲化和核心技術的互聯網化;框架
這是阿里雲所認爲的數據處理的能力框架,而在市場上,咱們一般把這種能力框架稱爲「數據中臺」。
輿論每每會更強調技術的做用,強調技術對業務的推進做用,但事實上,在商業領域,更多的時候,技術發展都是跟着業務走,技術的發展經常來自於業務需求和業務場景的倒逼。
例如,隨着愈來愈多的企業把業務流程上雲,日益增加的數據存儲和仍然稀缺的數據應用就成爲了企業的主要矛盾之一,並且,這種矛盾不是一天就可以解決,須要從業務、技術、組織幾個不一樣的領域一塊兒來探尋數據的解決方案。
「數據中臺」就是這一系列解決方案的基礎設施。
數據中臺不是一套軟件系統,也不是一個標準化產品,只能說,站在企業的角度上,數據中臺更多地指向企業的業務目標,也即幫助企業沉澱業務能力,提高業務效率,最終完成數字化轉型。
那麼,數據中臺又是如何一步步驅動業務的呢?
做爲阿里第一個數據倉庫的創建者,TCIF(淘寶消費者數據工廠)和阿里雲數據智能平臺數加的創始人,張金銀(花名行在,以技術專家的身份2004年加入阿里巴巴,到2016年年末,在阿里巴巴的12年技術生涯),他完整經歷了從「數據上雲」到「數據中臺」的全過程。
(奇點雲CEO——行在)
張金銀在2016年12月份創立「奇點雲」,奇點雲以「AI驅動的數據中臺」來爲企業提供服務,這些過往經歷,也讓他可以跳出技術的身份,站在業務的視角思考數據中臺和業務的關係。
顯然,他是回答這個問題的最佳人選。
Q:咱們常說,技術發展都是跟着業務走,能不能請您介紹一下,在互聯網平臺上,和業務場景相關的數據處理有哪些類型?
A:互聯網裏面最多的業務都是和消費者相關的業務,這是一個大的場景,跟着這個場景會有兩條主要的線,一條是事務處理需求,咱們稱其爲OLTP(聯機事務處理),另外一條是分析需求,咱們稱其爲OLAP(聯機分析處理)。
舉個例子,最先淘寶還只是一個網站的時候,整個結構就是前端的一些頁面,加上後端的DB(DataBase,數據庫),這就是一個OLTP系統,主要用於交易的事務處理。
可是,當淘寶發展到100萬用戶的時候,就出現了另一個需求,也就是以前說的分析需求,淘寶須要知道這些交易來自於哪些地區,來自於哪些人,這就出現了報表需求。
Q:那麼,分析報表這種OLAP需求,和以前的事務處理OLTP的差異在哪裏呢?
A:別急,哈哈。交易場景的特色是強調高併發、單條數據簡單提取和展現(增刪改查),而報表需求則沒有那麼多的併發數,可是對於數據的要求和交易場景不一樣,對數據批處理的要求也比較高,也就是一般所說的低併發,大批量(批處理)、面向分析(query+計算,用於製做報表)。
這樣一來,分析需求(OLAP)和交易(OLTP)的DB放在一塊兒就很是不合適,這時候出現了兩個變化:
第一個,DB自己也在發生變化,從傳統DB轉向分佈式DB。主要緣由是之前交易穩定,併發可控,傳統DB能知足需求,可是後來隨着交易量的增加,併發愈來愈不可控,對分佈式DB的需求也就出來了;
第二個,針對分析需求就出現了DW(DataWarehouse,數據倉庫),我2004年加入阿里,用Oracle RAC搭建了阿里巴巴第一個DW。
Q:在講電商系統發展過程的時候,咱們常把其分爲四個階段:單一業務系統階段,分佈式業務系統階段,業務平臺化階段,業務中臺化階段,那麼,在數據處理領域是否也分相似的階段?
A:有的,電商系統就是OLTP的典型應用場景,電商的單一業務系統階段就是以前說的數據庫(DB)階段;而OLAP分析需求的增加,則帶動業務進入了第二個階段,也就是數據倉庫(DW)階段,主要處理分析報表的需求;對應業務平臺化,第三個階段是數據平臺階段,主要仍是解決報表和BI的需求;第四個階段,就是咱們如今說的數據中臺階段,主要在把OLAP和OLTP去作對接。
(數據中臺演進的四個階段)
Q:原來第三階段還在解決報表需求......
A:對,這個階段主要解決的是技術問題。在數據庫技術領域:「Shared Everthting、Shared Nothing、和Shared Disk」,說的就是這個過程當中數據庫架構設計的不一樣技術思路。
Shared Everything通常是針對單個主機,徹底透明共享CPU/MEMORY/IO,並行處理能力是最差的,典型的表明SQLServer。
Shared Disk的表明是Oracle RAC,用戶訪問RAC就像訪問一個數據庫,可是這背後是一個集羣,RAC來保證這個集羣的數據一致性。
問題在於,Oracle RAC是基於IOE架構的,全部數據用同一個EMC存儲。在海量數據處理上,IOE架構有自然的限制,不適合將來的發展。阿里巴巴的第一個數據倉庫就是創建在Oracle RAC上,因爲數據量增加太快,因此很快就到達20個節點,當時是全亞洲最大的Oracle RAC集羣,但阿里巴巴早年算過一筆帳,若是仍然沿用IOE架構,那麼幾年後,阿里的預計營收還遠遠趕不上服務器的支出費用,就是說,若是不去IOE,阿里會破產。
Shared Nothing的表明就是Hadoop。Hadoop的各個處理單元都有本身私有的存儲單元和處理單元,各處理單元之間經過協議通訊,並行處理和擴展能力更好。中間有一個分佈式調度系統,會把表從物理存儲上水平分割,分配給多臺服務器。
Hadoop的好處是要增長數據處理的能力和容量,只須要增長服務器就好,成本不高,在海量數據處理和大規模並行處理上有很大優點。
Q:原來如此,那麼第四個就是目前的數據中臺階段。
A:從業務來看,數據也好,數據分析也好,最終都是要爲業務服務的。也就是說,要在系統層面能把OLAP和OLTP去作對接,這是數據中臺要解決的問題。
目前的數據中臺,最底下的數據平臺仍是偏技術的,是中臺技術方案的其中一個組件,主要解決數據存儲和計算的問題;在上面就是一層數據服務層,數據服務層經過服務化API可以把數據平臺和前臺的業務層對接;這裏面就沒有人的事情,直接系統去作對接,能把前臺的OLAP需求和OLTP需求去作對接。
Q:能否這麼理解:第一階段到第二階段,主要解決數據的「看」,可以對業務進行評估;第二階段到第三階段,解決數據的「用」,業務可以拿着評估結果去改進工做;第三階段到第四階段,數據化運營,數據賦能業務高效運營。
A:也能夠,咱們不常說:「一切業務數據化,一切數據業務化」,差很少就是這個意思。
Q:剛纔你提到海量數據處理,那麼,能不能從數據來源的角度來描述下數據和業務的關係?
A:國內的狀況,能夠分三個時間點來說。
第一個階段是2003年以前,互聯網黃頁剛剛出現,數據來源大部分仍是傳統商業的ERP/CRM的結構化數據,也就是前面說的數據庫階段,這個時候數據量並不大,也就是GB的級別;
第二個階段是2004年,隨着BBS和搜索引擎的發展,互聯網進入高速發展時期。和傳統的結構化數據不一樣,互聯網數據量最大的是非結構化的網頁日誌,90%以上的數據都來源於點擊(log),這時候數據量已經達到了TB的級別,須要使用不少的技術,好比DW,去把非結構化的數據轉化成結構化數據,存儲下來。
第三個階段是2016年以後,IOT(物聯網)發展起來,帶動了視圖聲(視頻、圖像、聲音)數據的增加,之後90%的數據可能都來自於視圖聲的非結構化數據,這些數據須要視覺計算技術、圖像解析的引擎+視頻解析的引擎+音頻解析的引擎來轉換成結構化數據。這時數據量已經從PB級別邁向了EB級別。
5G技術的發展,可能會進一步放大視圖聲數據的重要性。無論從數據量的增加、數據處理技術的進步,還在站在企業對數據中臺的認知來講,2019年均可以稱爲數據中臺元年。
Q:這頗有意思,科學研究代表,人從外部世界得到的信息中,由眼睛獲取的約佔80%,只是過去在線下,企業一直沒辦法去獲取和使用這些數據。
A:線下要想和線上同樣,經過數據來改善業務,就要和線上同樣能作到行爲可監測,數據可收集,這是前提。
而這些數據靠人來手工收集,確定是不靠譜的,依靠IOT技術和視覺算法的進步,最終會經過智能端來自動化獲取數據。
這就是奇點雲要本身掌控視覺算法的緣由,在視覺技術方面,奇點雲的人臉識別能力全球排名Top5,ReID技術排在全球Top2。
另外,要使用這些數據,光有視覺算法和智能端也不行,要有云來存儲和處理這些數據,而且最終經過AI算法來賦能業務來增加生意。
我認爲將來要作好數據中臺,只作雲或者只作端都不靠譜,須要把二者合起來作。智能端負責數據的收集,雲負責數據的存儲、計算、賦能。端可以豐富雲,雲可以賦能端。
因此將來服務線下企業的數據中臺必定是「AI驅動的數據中臺」,這個中臺的能力要包括「計算平臺+算法模型+智能硬件」,不只要在端上具有視覺數據的收集和分析能力,並且還要能經過Face ID,幫助企業去打通業務數據,最終創建線上線下觸達和服務消費者的能力。
Q:那麼,您認爲合格的數據中臺須要具有哪些能力?
A:須要具有三種能力。
第一是數據模型能力。
在業務層面,業務抽象可以解決80%的共性問題,開放的系統架構來解決20%的個性問題,但同時又要把平臺上的業務邏輯分開,由於不一樣的業務邏輯之間可能有衝突。
這在數據中臺就表現爲數據的中心化,也就是數據的高內聚、低耦合,須要對共性問題抽象出業務的規則,創建數據模型,一個好的內聚模塊可以解決一個事情,同時又要下降模塊和模塊之間的耦合度,讓模塊具備良好的可讀性和可維護性。
這裏的前提是要有真正懂業務能沉澱經驗的人,以及要在企業層面開展數據治理,讓數據可以準確、適度共享、安全地被使用。
第二是AI算法模型能力。
要實現數據業務化,前提是作到數據的資產化。要可以從數據原油裏面,去提煉出可使用的汽油。
好比說數據的標籤化,背後就有投入產出比的考量:經過標籤,廣告主能夠很是方便快捷地去創建本身的人羣包,實現精準營銷,同時投放的ROI也是可見的、透明的,廣告主能夠本身去評估數據資產的使用狀況。
第三是行業的應用能力,也就是咱們一般說的數據業務化能力。
和數據中心化相似,數據業務化也須要很強的行業經驗來指導,創建合適的業務場景,在場景裏面去使用數據,從而體現數據的價值,來大大擴展數據在行業中的應用能力。
Q:能舉個例子嗎?
A:那我就說下TCIF(消費者數據工廠)的例子吧。
先說爲何要作TCIF?
由於當時消費者的信息分散在阿里巴巴的各個業務中,碎片化,散點化,而業務當時須要把這些分散的人的數據集中起來,進行人羣畫像。
道理很明白,人羣畫像越清晰,服務就會越精準。
再說咱們是怎麼作的。
•首先,定義埋點規範,同一我的就用同一個標識,ID打通,也就是所謂的One ID;
•其次,還會碰上一家人使用一個登陸賬號的問題,那麼就須要創建同人的數據模型,經過一些方式,好比,IP網段是否是同樣,來分辨出具體的那我的,創建AID(Alibaba ID);
•再次,每一個人還有各類網絡行爲,要如何把這些行爲結構化,裝到各類框架裏面?這個特別難,咱們當時主要是跟人類學家合做,一塊兒把行爲的分類樹作出來。這個分類樹很是細,甚至可以把一我的的髮質都結構化了。
接下來,就須要經過算法模型,把全部的標籤都貼回到人上面。
最後,好比阿里媽媽的達摩盤就會把這些標籤提供給廣告主,讓廣告主可以經過標籤去創建人羣畫像,進行人羣細分,以及創建投放用的人羣包。
Q:最後,可否請您介紹下您我的的經歷
A:我本人是2004年以技術專家身份加入的阿里巴巴,2016年離開,在阿里巴巴搭了第一個數據倉庫,建立了第一個消費者數據工廠(TCIF),建立了阿里巴巴大數據平臺數加,能夠說,這12年就是和數據做伴的12年。
由於對於數據將來的判斷(注:將來90%以上都是視圖聲數據),2016年,我離開阿里巴巴創立了奇點雲,去幫助線下企業複製線上,真正實踐「AI驅動的數據中臺」。
Q:若是用一個或幾個詞來形容數據中臺給企業帶來的效果,您以爲會是哪一個詞?
A:我會說是「降本增效」。這麼多年來,互聯網的發展都創建在更低成本、更高效率的鏈接之上,線下也必定會延續線上的發展邏輯,而低成本高效率的鏈接,也會帶來更多的數據,從而幫助企業在各個層面下降成本,提升效率。
這是一個良性循環。
相關研究代表,中國目前有超過 80% 的企業仍然處於較爲初級的數字化轉型階段。將來的商業,數據智能是源動力。數據中臺,已然成爲企業數字化轉型的關鍵,或者說是必經之路。