在本系列的前面兩篇文章(《數據智能時代來臨:本質及技術體系要求》和《多維度分析系統的選型方法》)之中,咱們歸納性地闡述了對於數據智能的理解,並根據工做中團隊涉及到的多維度分析系統的選型方法進行了穿插介紹。按照原先的規劃,咱們接下去的內容會涉及數據智能平臺中的治理、安全計算以及質量保證方面。前端
不過,計劃不如變化快,最近這段時間「數據中臺」這個詞很是熱,有人問了我兩個問題:「數據中臺」與這個系列的核心「數據智能的技術體系」有什麼區別?大家是怎麼理解「數據中臺」這個概念的呢?安全
順着這兩個問題,這篇文章就和你們聊聊咱們對於「數據中臺」的理解,以及和「數據智能的技術體系」間的區別。架構
再從數據的價值談起併發
數據的產生來源於咱們的產品和服務所提供的直接價值。以打車軟件爲例,由於APP須要提供給乘客所在地點周圍的司機信息,所以系統須要及時收集司機的位置以及車載乘客狀態以肯定是否可被調度,而後把乘客的轎車需求發送給設定參數範圍內的可用車輛。司機在進行搶單或者配單後,就能夠接上乘客並按照導航送至目的地。運維
在這個過程當中,乘客的上車位置、下車位置、司機車輛的位置、狀態以及車輛行駛過程當中的位置信息等數據都是爲「打車」這個動做的直接價值服務。oop
正如你們所知,咱們能夠利用這些幾千幾萬輛車的位置信息,聚合出每一個道路的交通情況,再把這些知識提供給交通優化等。這就是數據的擴展價值,數據的多種價值彙總起來就是數據的選擇價值。學習
再打個比方,數據的首要價值被挖掘後仍可以不斷給予,它的真實價值就像漂浮在海洋中的冰山,絕大部分被隱藏在表面下。數據的選擇價值也就是「取之不盡,用之不竭」的數據創新成果。這些數據創新並非事先就規劃好或者事先都能想到的。大數據
那麼爲了保證這種創新的可能性,咱們須要讓這些數據都能被保存下來,而不是在實現了直接價值後,就棄之如敝屣。這個也是接下來要提到的「數據湖」的由來。優化
數據湖與數據倉庫spa
數據湖【1】的概念是2011年提出的。因爲沒法對已流失的數據進行回溯,一些大數據廠商在Hadoop爲基礎的技術棧上,把一個組織中產生的原始數據存儲在一個單一的系統中。通常你們會用開源的Hadoop來構建數據湖,不過數據湖的概念比Hadoop更爲普遍。
看到數據湖,你們確定會想到數據倉庫或者數據集市,那麼二者的區別在哪裏呢?咱們先來看看下面的這個圖。
圖 1 數據湖示意
數據湖存儲數據源提供的原始數據,沒有對數據的形式進行任何假設。每一個數據源可使用其選擇的任何形式,最終數據的消費者會根據他們本身的目的來使用數據,這是數據湖區別於數據倉庫的一個很是重要的緣由。同時,這也是數據倉庫沒有走得更遠的緣由,由於數據倉庫首先須要考慮數據方案(schema)。
圖 2 數據倉庫示意
數據倉庫傾向於爲全部分析需求設計一個整體的方案表示,可是實際上即便是一個很是小的組織,想要經過一個統一的數據模型來涵蓋一切,也是不太實用的。另外,數據倉庫在使用中會出現數據質量問題:不一樣的分析需求對數據的構成有不一樣的質量要求和容忍度。數據倉庫的這個特徵致使了漫長的開發週期、高昂的開發成本和維護成本、細節數據丟失等問題的出現。
數據湖在直觀上更像一個數據質量差別很大的數據傾倒場,若是隻是聚合後的數據,意味着會丟掉不少數據。數據湖應該包含全部數據,由於你不知道人們能夠在何時找到有價值的東西,多是在今天,也多是在將來幾年的時間裏。
數據湖的這種原始數據的複雜性意味着咱們能夠經過一些方式來將數據轉變成一個易於管理的結構,這樣還能夠減小數據的體量,更易於處理。數據湖仍是不該該常常性地被直接訪問,由於數據是很原始的,須要不少技巧才能使之變得有意義。通常能夠按照下圖來處理,咱們能夠把它稱爲數據湖岸集市。
圖 3數據湖岸集市
把全部數據放入湖中的一個很關鍵的點是須要有一個清晰的治理。每一個數據項應該有一個清晰的跟蹤,以便於知道數據從哪一個系統中來以及何時產生等,也就是元數據管理、數據血緣以及必要的數據安全。
數據中臺
數據中臺這個概念是阿里巴巴提出來的。隨着業務的快速發展,企業的多條業務線都產生了大量的數據,並且數據都按照不一樣的形式進行採集、存儲、處理等。爲了快速知足每一個前端業務的需求,公司一般會讓前臺直接去聯繫後臺。譬如,大部分公司的大後臺就是財務,初始可能比較有效,可是隨着需求愈來愈多、愈來愈頻繁,溝通成本大大提升,效率大大下降。
同時,對於一個公司的多個業務來講,哪怕看起來很個性的需求,通過抽象以及合併同類項後,咱們發現也能夠造成共有的能力。其實,對於後臺的不少功能,一樣能夠抽象出來,成爲各業務共有的能力。這樣可讓數據更靈活更敏捷地服務於前臺的各項業務,這個就是數據中臺的初衷。
對於阿里來講,如何更好地把包括本身不一樣業務的數據、被收購公司的數據在內的多個數據變成One Data , 而後爲整個公司的業務服務,也是數據中臺的一個核心目標。
事實上,數據中臺的建設與數字化轉型同樣,其實也是一個螺旋上升的過程,每每須要不斷根據業務變化需求進行完善。哪怕再宏大的數據中臺戰略,也必需要用真實的業務場景去實踐,經過以小到大的場景不斷去鍛鍊中臺。
總結而言,數據中臺是練出來的,即數據的複用率決定了數據中臺的成功與否。一個數據中臺的成功意味着很多數據都在進行着重複使用。此外,咱們須要注意數據安全策略的執行,包括底層數據安全的實現以及業務層數據的合規使用。
若是一個公司的數據中臺沒有和業務中臺緊密配合,那麼這種純粹的數據中臺只是蹭熱點,不會有很大的效果。因此咱們認爲,更有價值的中臺是業務偏向的數據中臺,而不是通用型的數據中臺。這個觀點,和前阿里數據委員會主席車品覺是一致的。
根據上面的分析,咱們建議公司在業務或者產品比較單一抑或數據戰略並不太清晰的狀況下,能夠建設數據湖,而不是爲了建設中臺而去建設。從本系列第一篇文章《數據智能時代來臨:本質及技術體系要求》的總體介紹來看,咱們數據智能的體系和數據中臺的目標是一致的。
從咱們自身的理解來看,數據智能體系和數據中臺同樣,本質上是把數據做爲資產,整理出企業的元數據和數據血緣關係,再以這些數據爲中心,抽象出公共服務的能力。最後,讓前端流程的構造和企業的穩定數據公共服務解耦。這樣就沉澱出了公共服務能力,即把這些能力SaaS化。
數據智能體系或者說中臺,最根本的目的是敏捷地支撐業務部門的業務創新需求,打造快速服務商業需求的服務能力,而且儘可能實時處理,體現數據的資產化及價值最大化。
咱們認爲中颱最主要的用戶是數據開發者羣體,包括數據研發人員、數據分析及建模人員。建設中臺的目的在於提升他們的效率、下降學習曲線、提升數據質量。
下一個系列,咱們將回到主線,繼續講講數據治理、安全計算、數據質量保證等方面的內容,敬請期待。
做者簡介
安森,個推CTO
畢業於浙江大學,現全面負責個推技術選型、研發創新、運維管理等工做,已帶領團隊開發出針對移動互聯網、風控等行業的多項前沿數據智能解決方案。
曾任MSN中國首席架構師,擁有十餘年資深技術開發與項目管理經驗,在大數據處理系統、大規模併發平臺、分佈搜索系統、手機應用開發、無線通訊領域和智慧金融系統等領域擁有豐富實踐經驗。