解碼阿里數據:對外數據產品也浮出水面

解碼阿里數據:對外數據產品也浮出水面

2014-05-21 

大數據時代,阿里巴巴[微博]集團是最有資本進行爛漫遙想的公司之一,阿里數據平臺事業部的服務器上,攢下了超過100PB已「清洗」的數據。前端

  馬雲[微博]曾在2012年公開宣稱,「平臺、數據、金融」是阿里集團和阿里小微集團將來的指導路線。在此先後,戰略佈局已經漸次展開:數據庫

  2010年,推出重整的搜索業務「一淘」,2011年收購數據屬性公司CNZZ,近期又接連收購友盟、入股新浪微博和高德,搶佔數據源;在物流領域,阿里由天貓[微博]主導建設了與各大配送公司對接的「天網體系」,最近牽頭成立智能骨幹物流網絡「菜鳥科技」,構建物流信息數據平臺。後端

  阿里數據十年鑄劍,現在只是起手開了個局。安全

  十年進化服務器

  從報表到分析工具、flash,阿里的數據產品愈來愈沒「數據味」。cookie

  從2003年淘寶起步開始,阿里集團數據平臺事業部負責人「七公」(本名汪海)就一直在與數據打交道,他的經歷勾勒出了這家數據巨人的演變軌跡。網絡

  阿里系最先的數據工做自2003年起步,出於業務需求的驅動,起初很是粗糙,無非數據庫、IT系統,隨後開始統計分析行業的基礎指標,好比PV、UV等,當時的淘寶數據部門只有數名員工。架構

  在數據的童蒙時代,淘寶「依葫蘆畫瓢」,學習當時最大的對手——易趣,當時eBay[微博]、亞馬遜[微博]都已成立成熟的BI部門。恰是與易趣的競爭,推進了阿里的數據應用。據淘寶內部人回憶,易趣曾強勢經過排他協議壟斷了門戶廣告資源,迫使阿里將廣告投放轉向中小網站聯盟,由此催生了廣告投放精準化分析需求,淘寶的數據團隊開始積累流量數據的分析經驗。併發

  2004-2005年,淘寶逆轉易趣,業務量激增,品類快速擴張,數據量隨之躍升。淘寶開始意識到,不能再靠拍腦殼作經營決策了,須要實時觀察掌握用戶量和交易量的變化,進行精準分析。高併發

  2005年,淘寶成立商業智能部門,成爲當時淘寶技術研發部門負責人姜鵬的直屬部門。這一年,阿里擁有了第一款嚴格意義上的數據產品——「淘數據」,這是一份經營數據的報表,爲各業務公司、部門提供經營報表的檢索生成工具。同年,阿里切入搜索、廣告業務——兩項業務均帶有自然的數據屬性,成爲阿里大數據運營的開端。七公說,由此阿里對數據和應用場景的理解愈來愈清晰,目的性更明確——搜索幫助消費者更快找到商品,廣告則讓商家得到更高的ROI(投資回報率)。

  2009年,阿里數據開始進入產品化時代。「淘數據」從一個內部報表系統躍升爲內部數據統稱。2009年4月和12月,商業智能團隊又分別開發出可預警的「KPI系統」、服務於業務部門的「數據門戶」。

  阿里的對外數據產品也浮出水面。脫胎於「雅虎統計」的工具「量子恆道」,爲外部商戶提供統計分析工具,用於跟蹤自有店鋪流量、點擊、購買等數據的變化。

  與數據產品的大裂變同步,2009年,阿里的數據技術架構,開始大變革。此前一年加入阿里出任首席架構師的王堅,一手主導了阿里架構從Oracle商用系統向Hadoop開源平臺的遷移。相比IBM[微博]、Oracle等商用系統,Hadoop平臺的優勢是成本低廉,且架構可擴展性極強,全球互聯網企業的大規模計算體系多使用該平臺。

  同年,王堅成立阿里集團研究院,將集團內各公司自行搭建的Hadoop集羣統一,開發出「雲梯1」系統,以實現全集團全部數據的打通、整合的管理和共享。

  這一系列變革以後,阿里最高層提出了「數據開放」。2010年初,淘寶推出「數據魔方」,第一次向市場開放了全局市場數據,這款付費產品成爲了大中型商戶追捧的數據利器。產品研發發端於阿里數據平臺團隊對客戶的走訪。當時,寶潔公司提出,但願瞭解行業數據,以幫助其經營決策。數據團隊的員工提出,與其case by case解決,不如直接產品化,阿里數據的價值出來了!

  此後,阿里內部數據產品的開發進入井噴狀態。淘寶數據部門開發出「活動直播間」,幫助買家更好地參與促銷運營。2011年上半年,「賣家雲圖」、「頁面點擊」接連出現。

  2011年,現任阿里數據委員會負責人的車品覺加盟支付寶[微博],發現阿里數據產品線存在短板:高層一端數據過多,關聯性不強,難以快速進行全局診斷;一線運營一端總抱怨數據不夠,數據間壁壘重重,沒有進行整合。

  因而,車品覺研發了兩款產品,一款名爲「觀星臺」,是一個高度可視化的儀表盤,選擇最關鍵的數據在幾秒內展現全局運營情況;另外一款叫「地動儀」,能夠看到用戶投訴最多的功能有哪些,甚至能夠獲取最原始的客服電話錄音。隨後,車品覺進入淘寶,又開發了兩款產品「黃金(1290.70,-3.90,-0.30%)策」和 「無量神針」。七公領導的另外一支數據團隊也開發了一系列產品,如 「淘寶指數」,以及2012年「雙11」期間推出的「淘寶時光機」。

  一家互聯網公司數據挖掘業務的負責人評論,從「數據門戶」到「數據魔方」,再到「淘寶指數」、「淘寶時光機」,阿里的數據產品從報表到數據工具,再到可視化圖片甚至一組flash,看上去愈來愈沒有「數據味」,可是,其對消費場景和行爲的洞察卻愈來愈深了。

 

  高速公路與跑車

  數據時科學的,數據的取捨、分析維度的選擇更像是藝術。

  2012年,阿里集團一系列架構調整,重構了阿里數據「達芬奇密碼盤」的排序。

  阿里雲拆分,獨立運行;阿里系的數據庫和大規模運算資源整合爲「數據平臺事業部」,由阿里集團CEO陸兆禧親自掌管;同時成立虛擬組織「集團數據委員會」,車品覺出任首任會長。

  王堅領導的阿里雲是「密碼盤」中的最底層架構,提供基礎的運算平臺。譬如,阿里自行研發的「雲梯2」體系,即創建在阿里雲「飛天」架構之上;在此之上,則是七公領導的數據平臺事業部,運營阿里集團共享的數據庫,各業務公司產生的數據經清洗以後就存儲在該事業部的服務器上;再往上即車品覺帶領的淘寶網[微博]商業智能部門,他們使用數據進行分析。同時,「數據委員會」的成員們分屬阿里各業務公司,他們利用七公團隊的工做成果進行再分析。

  能夠這樣理解三層架構:阿里雲是IasS(基礎設施即服務),阿里數據平臺事業部是PaaS(平臺即服務),而車品覺的團隊則是SaaS(軟件即服務)。

  阿里集團內的數據大多都通過這樣的旅程——用戶在淘寶上的一個收藏動做,首先在淘寶網的前端服務器上產生一條日誌,日誌隨後被傳送到七公團隊的服務器上存儲,期間通過清洗過程,最後被編入數據庫,與其餘數據一同被儲存在分主題的數據集市。當數據委員會的分析師們進行數據挖掘時,就可能被採用。

  目前,數據業務平臺已整合了阿里集團的所有數據。此外,阿里小微集團中創新金融事業部(即阿里金融)的數據也與該平臺直接相連。

  IBM諮詢經理陳琪說,大數據概念存在兩層結構。一層是人們熱議的、不乏科幻感的分析預測能力;另外一層則是處理大規模、高併發、高關聯性甚至是低價值密度數據的運算能力。

  車品覺作的是前者,而七公維護的是後者。

  車品覺評論說,七公團隊在修建高速公路,而他的團隊則在高速路上駕駛跑車,「建高速公路是一個漫長的工程,須要巨大的投入、耐心以及細緻。」七公告訴《21CBR》,其服務器上保有的歷史數據已超過100PB,且都已通過「清洗」。

  「清洗」被兩人反覆說起,它保障數據的質量,直接關乎大數據運營的準確性。那麼,如何清洗數據?首先得讓數據「對得上、產生關聯」。互聯網行業發展迅速且難於規劃,一般不斷試錯、快速迭代,不一樣部門、業務之間的數據每每難於打通,很多公司各業務甚至連用戶cookie、日誌格式都不一樣。阿里或許是幸運的,從2004年起,整個淘寶系的日誌格式就已統一。

  這僅僅是開始,數據處理的鏈條極長,任何一個環節出錯都會影響後端。車品覺說,數據污染每每有兩個緣由——採集錯誤、數據口徑不一樣。前者每每來自於部門協做脫節,如前端業務部門的開發人員改變了頁面功能但未及時通知數據部門,那麼,相關用戶行爲產生的數據定義就已失真;後者則更易理解,譬若有的電商公司統計「轉化率」只統計用戶點擊購買,有的公司則進一步考慮點擊後是否付費、是否退款。

  數據委員會的工做就是要統一集團的統計口徑和統計方法,制定關於質量和安全的範式,其成員來自各個業務公司,由車品覺主持規範工做。2013年,他將數據質量和數據安全視爲最重要的課題,設置了對應的兩個小組。「數據是科學的,清洗過程當中的取捨、分析時維度的選擇則要靠分析師的修爲,這部分不那麼科學,更像是藝術。」車品覺說。

  其實,參與阿里大數據戰略的團隊還有不少,如「共享平臺事業部」旗下的搜索團隊,擔負着爲集團各部門「清洗」非結構化數據的任務;數據平臺事業部下有一支20多人的數據產品部團隊,運營着「數據魔方」、「淘寶指數」、「淘寶時光機」等向外開放的數據產品;各業務公司的分析師也都負責各自業務的數據清洗工做。

 

  數據的覺醒

  大數據概念再也不是「忽悠」,正當「亮劍」時。

  車品覺很推崇數據界前輩提出的一段「六字真言」:「對比、細分、溯源」。他認爲還要加上一項「趨勢」,這是由傳統BI領域躍入「大數據時代」的關鍵一步。人們憧憬的大數據方法論,要求推測將來、洞悉全局、引導決策的能力。

  不久前,車品覺曾在一次非正式交流中說,大數據概念目前看來還是「忽悠」。接受《21CBR》採訪時,他特地更正,「忽悠」是指如今的基礎,大數據的前提擁有足夠的數據、關聯性,並具有相對應的運算能力和分析能力。最近幾周,他一直在跟BI團隊開會,提出要從新定義BI,「今天的BI之後未必好用,並不徹底適合將來的數據世界。」

  阿里集團總體正以數據做爲行動新方向。

  早在2011年,時任阿里集團首席人力官、支付寶CEO彭蕾(現任阿里小微集團CEO)就提醒車品覺,要嘗試從「數據化運營」轉向「運營數據」。

  馬雲謀劃的是,龐大數據平臺做爲信息流的精華部門,與物流、現金流結合,構建閉合且不斷外擴的生態體系,除提供內部數據決策支撐以外,甚至能夠造成數據的交易平臺。阿里數據的份量已不容小視,淘寶系交易額已超過萬億元,其龐大生態中能夠實時捕捉經濟運行的脈動,阿里研究院每月會接到好幾波各級政府索要數據的要求。近期,很多政府官員前來向車品覺諮詢大數據在公共行政管理的應用。

  宏大願景之下,阿里數據團隊態勢嚴峻。數據團隊應該是CEO直屬的戰略級團隊,現在,車品覺坦言,CEO、管理層的注視讓他們感到壓力日增。「馬雲知道數據要耐心養」,可是,高層已頻頻問及數據業務落地情況, 「不能再只是講故事了,咱們到時候必須亮劍了」。

  如今,車品覺的團隊正增強挖掘內部數據的力度,爲數據分析、預判提供更多可靠的參考維度。最近,團隊的研究廣度已從淘寶系延展到整個阿里系,並已開始考慮向阿里系外部提供數據工具。車品覺讓數據產生商業價值的意願空前強烈,他正積極搜尋機會,但願爲合做夥伴提供足以指導決策的數據方案——2013年之前,數據產品提供的可能是診斷輔助,如今開始引導決策。

  這一計劃已有成果出現。楊滔,車品覺團隊中的一位數據科學家,他牽頭爲「聚划算」設計了一套數據工具,預測商品可否成爲「爆款」。這款產品參考60多個變量,能輸出商品是否爆款、最終銷量、庫存等數個關鍵預判數據,可直接做爲商品可否參與活動的判斷標準。據瞭解,該產品目前預測的準確度已達到80%以上。

  楊滔正琢磨着參考更多維度的變量,將系統應用範圍拓展到線上、線下的通用產品,以幫助綜合零售企業總體預測實體店和在線渠道的銷售和庫存情況,直接做用於經營決策。楊滔還在開發一款產品,帶有濃烈的「人機對話學習」色彩,經過研究淘寶購物推薦達人的行爲,分析其規律,進而改進淘寶系統的推薦工具,提升個性化推薦的能力。

  整個阿里系業務中,最爲炫目的是阿里金融的小貸業務,這是大數據應用的典型案例,阿里金融數據團隊設計的模型綜合了信用記錄、成交數額等結構化數據,以及用戶評論等非結構化數據,加上外部蒐集的用電量、銀行信貸等數據,可就放貸與否、放貸額度精準決策,其貸款不良率僅爲0.78%。

  目前,阿里數據分析團隊主要使用阿里內部的數據——僅僅這些他們還遠沒有徹底挖掘,然而,車品覺認爲,數據產品只有用更多維度進行綜合關聯比照,才能掌握更爲真實的商業動向。阿里的數據支撐團隊又一次提早開始「修路」——準備更多維度的外部數據。據透露,七公的團隊已開始接入高德等關聯公司的信息。

  車品覺說,阿里目前已到了大數據的海邊,是在國內互聯網行業「作得最狠的」,「若是阿里作不出來,中國在大數據應用的進程可能會減速」。

相關文章
相關標籤/搜索