阿里推薦與搜索引擎 - AI·OS綜述

AI·OS(Online Serving),大數據深度學習在線服務體系,由咱們工程、算法、效率的同事們砥礪十年而成,支撐起海內外阿里電商所有的搜索和推薦業務,時刻置身大數據主戰場,引導成交佔據集團大盤主體;此外,做爲中颱技術中堅,AI·OS已經是包括電商、阿里雲、優酷、菜鳥、盒馬、釘釘等等在內全集團的基礎設施;更爲重要的是,AI·OS體系的雲產品矩陣服務於全球開發者,今年預期在數千萬級的營收規模。算法

AI·OS聚焦於深度學習的在線服務,其組件Jarvis甚至已經運行於手機上,但從功能角度來看,在體系中處於關鍵地位的有5個服務組件:TPP推薦業務平臺、RTP深度學習預測引擎、HA3搜索召回引擎、DII推薦召回引擎、iGraph圖查詢引擎。AI·OS上的主要的算法場景,好比手淘的搜索、猜你喜歡、AIO以及海神等,都以圖化(算子流程圖定製)的模式對組件快速組合與部署並承擔實驗流量,讓在線服務不拖模型訓練的後腿隨訓隨上,這是咱們對迭代效率的最高水平的新演繹。框架

AI·OS這些關鍵服務組件可以幻化奇光異彩的算法場景和技術產品,絕非機械組合可成。引擎圖化的基礎,尤爲是對組件快速組合與部署並接流的能力,得益於咱們對大數據在線服務的通用抽象(要求具有秒級數據更新的最終一致性),它就是Suez在線服務框架。Suez框架統一了3個維度的工做:1. 索引存儲(全文檢索、圖檢索、深度學習模型),2. 索引管理(全量、增量以及實時更新),3. 服務管理(最終一致性、切流降級擴縮容等)。每個服務組件好比iGraph,孤立的作好這幾個維度至少要3年時間,哪怕是共享大部分代碼,而作好它們只是一個在線服務的基本前提,畢竟咱們都知道頻繁的業務迭代必定是發生在圖的計算層面。近日回顧,將iGraph遷移到Suez框架上,出於對使命的認同團隊精銳盡出不計投入,使得AI·OS能夠合圍而成。運維

AI·OS體系裏Hippo承擔着集羣物理資源的調度任務,這裏是中臺容器和隔離技術與搜索工程交匯之地,更是模型訓練PAI-TF與實時計算Blink經過AOP成爲體系友員的橋頭堡。今天推薦與搜索的訓練任務都運行在Hippo混部資源池上,算法鼎盛時期我見證過最大2千臺、七天均值1300臺百核機器滿負荷運轉,這些資源是免費得到的,而這些做業創造的價值大到沒法估量。學習

AI·OS自身也是預測與優化算法的用武之地,其中AIOps更是集大成者,在metrics服務KMon解決了秒級實時可靠性以後,在TPP成功推升ajdk的負載極限以後,在廣大無狀態服務組件彈性擴縮成功以後,AIOps終於能夠再邁進一步推進Hippo池內大部分引擎服務組件執行彈性策略,雙11當日力爭摸高50%的負載峯值。彈性擴縮據咱們所知在大數據在線服務領域是開拓性的工做。大數據

AI·OS得以自成體系完成算法迭代閉環,離不開嵌於手淘皇冠上的搜薦服務端和客戶端兩顆明珠,這裏是算法工程產品融合亦是相關各方博弈的主場,高效的產品迭代和完善的實驗機制配合支持體系不斷實現衆望所歸的開疆闢土。近年來端上智能的探索逐步明晰,助力拍立淘突破數千萬UV,技術上反哺手淘也給AI·OS體系帶來新的發展空間。優化

AI·OS深刻骨髓的產品化理念支撐咱們自居中臺技術中堅,TPP、TisPlus以及OpenSearch這些精準定位的推薦與搜索中臺產品成就衆多事業部的大數據場景和基礎檢索服務。國際化大潮中,AI·OS體系化部署無需定製開發,技術中臺優點獨顯。索引更新鏈路的設計欠缺形成負面影響,鞭策咱們的同時側面也佐證AI·OS的基礎地位。阿里雲

雲上拓展不只是機遇更是AI·OS產品化的使命和終極歸宿,一批早期的引擎開發者富有遠見志同道合異曲同工敢於開拓,現在OpenSearch和ES(基於AI·OS體系的基礎設施)已經全球部署成長爲兩款千萬級的搜索產品,而名爲AIRec的智能推薦產品即將問世,明年咱們的公有云大數據產品矩陣有望營收有新突破。spa

總結一下,AI·OS體系的基石是Hippo它爲體系劃定了資源的剛性邊界,資源爲在線服務發展所必須,凡支持混部在資源角度能造成共贏的即爲體系友員(好比PAI-TF),目前咱們也在不斷拓展Hippo邊界即將與Yarn合體甚至合池;往上的Suez是體系裏大數據在線服務的基礎框架,支持Suez即爲體系成員,除運維成本大幅下降外還很天然的參與AIOps彈性擴縮進一步提高系統效率;進而再具有圖化能力即成爲深度學習在線服務體系的核心成員,能夠在業務場景裏任意馳騁,將來咱們寄望於全圖化引擎與離線高效對接大幅提高算法迭代效率。從Hippo到Suez(iGraph)再到圖化引擎(RTP、HA三、DII),再延伸到手淘搜薦服務端與客戶端,乃至其上的AIOps和幾大技術產品TPP、TisPlus、OpenSearch,其核心線索是優化算法迭代效率,這乃是AI·OS體系的精髓所在。**從今天AI·OS達到的境界而言,我在所知範圍內尚未見到同行到達過。設計

AI·OS與算法blog

直白的講,面對大數據業務挑戰, AI·OS至多能起到30%的做用,隨後是算法解決30+%,其他的靠產品和機緣,只不過AI·OS的30%是個前提條件,這容易被忽視,在早期淘寶搜索,不久前的手淘推薦在上演。很難想象有另外的技術領域會像這兩個領域同樣樂於相互成就,對彼此同事的職級、規模和疆域的成長感覺到的只有羨慕。咱們須要永遠銘記,AI·OS發展的核心線索是優化算法迭代效率。

AI·OS與Blink

Blink孵化自早期的AI·OS體內,今天已蓬勃發展爲通用實時計算引擎,不過兩者間關係永遠的凝結於實時二字之上:AI·OS體系的引擎服務都要求具有秒級數據更新的最終一致性,而Blink在AI·OS的場景以外再難尋覓真正的技術挑戰。這就很容易解釋爲何Blink團隊珍視AOP,而AI·OS狂熱的推進Blink上混部,甚至落地Hippo與Yarn合體合池。AI·OS與Blink的互補特性,僅次於AI·OS與算法。

AI·OS與PAI

稍早時PAI但願獨立發揮做用卻總不能得門而入,緣由是忽視了AI·OS體系尤爲是Hippo的混部資源池的剛性訴求,儘管你們都認同PAI在Blink和AI·OS之間有很大的發揮空間。所幸三方的開放心胸最終達成分工默契,放棄本身的資源池後,PAI-TF成功地撐起了搜索和推薦算法所有的模型訓練任務,並且也支持了AI·OS的圖化執行引擎。展望將來PAI-TF能夠在AI·OS發展的核心線索上發揮更大做用。

對比Blink和PAI,梳理一下AI·OS的發展脈絡,不難發現規律:AI·OS首先服務於集團頭部客戶發展基礎體系,而後具有產品化能力服務於集團內中長尾,最後再完善產品化成爲雲上服務。Blink誕生於AI·OS優化實時計算效率服務好了頭部客戶,而後發展SQL走產品化的路服務好中長尾集團內得以統一,如今也在雲上大力發展。而PAI以前只能服務集團內中長尾,反觀幾家頭部客戶均有本身的訓練平臺,這絕非任性,主因是當時PAI並不足以支撐頭部客戶迭代需求。而今天PAI-TF作出改變兼容AI·OS體系,格局會本質改觀,完全落地的PAI將會同時具有頭部和中長尾的服務能力,集團內統一深度學習的訓練平臺將會水到渠成。

AI·OS與圖計算

圖計算在計算引擎學界引領熱潮,在離線場景(包含迭代計算)有豐富的論做,向在線服務領域拓展尋求更快速的驗證在所必然,但在互聯網大數據技術業界鮮有堪稱經典的對標實現,是由於業界技術能力不夠嗎?學界熱潮容易理解,圖論本是經典傾倒無數英雄,而業界缺少對標更刺激學界投入。只不過業界見到的多數大數據業務場景完整抽象後並不是經典的圖計算問題,好比AI·OS對此的抽象是算子流程圖快速定製,這至多算是一個泛化的圖計算模型。不過在AI·OS體系之上的局部,經典的圖計算技術的確大有空間,iGraph乃至整個體系準備好隨時被顛覆,不過顛覆以前,須要摸透具有秒級數據更新的最終一致性的在線服務的特色,從Hippo到Suez的能力要素都要逐步具有。是融入體系在iGraph或Suez上快速落地,仍是像PAI同樣兼容於體系,仍是獨立於AI·OS體系以外從頭開始,選擇決定成敗。OLAP與圖計算類似,走向在線也將面臨相似的選擇。對於這類具有面向最終一致性的在線服務,獨立於AI·OS建設,還意味着要開闢獨立資源池,於是也更加須要提供足夠獨特的價值,這方面我尚未看的很清楚。最後一個和AI·OS關係密切的技術方向是OLTP,因之在數據更新的一致性上要求更高,AI·OS不會妄自涉足。

須要指出的是,集團內外流行的Graph Embedding從在線服務角度來看,和圖計算無關,這個技術叫向量召回,是圖像檢索的泛化應用,該技術集團內實現以達摩院機器智能實驗室最爲突出(拍立淘核心技術之一),這部分已經是AI·OS體系能力的一部分。

本文做者:拉爾夫沈

閱讀原文

本文爲雲棲社區原創內容,未經容許不得轉載。

相關文章
相關標籤/搜索