阿里江湖中,不少資源和技術,如神龍服務器、OceanBase、POLARDB等等,在開源、自研、雲這三架馬車上造成協同效應,既是內功也是武器。算法
「不是任何一朵雲都能撐住這個流量。中國有兩朵雲,一朵是阿里雲,一朵叫其餘雲。」11月11日晚,阿里巴巴集團CTO行癲(張建鋒)不久前表示。數據庫
除雲以外,要深刻了解阿里的武功路數,必須知道每一個花名背後的武器與絕技。旭卿、觀濤、鳴嵩、日照、褚霸、孤星、龍現、行易、鐳銘,11月18日,在阿里舉辦的「雙11 背後的技術力量」沙龍活動,這9位阿里技術大牛展現了路數,全面解讀雙十一背後的武功祕籍。跨域
整個天貓的成交額是2684億,零點訂單峯值達到54.4萬筆/秒。這是華山論劍的結果。服務器
自研數據庫POLARDB和OceanBase分別處理8700萬、6100萬筆/秒峯值請求、實時計算處理峯值每秒25.5億筆、計算平臺單日處理970PB數據、12億筆物流智能化等……2019年雙11期間,阿里巴巴打破了諸多技術紀錄。網絡
雙11一個個閃亮的數字的背後有一個比較重要的事情,那就是今年阿里把核心交易系統100%遷移到阿里的公共雲上,這是前所未有的、世界級的挑戰。架構
要實現100%的遷移,必須提到阿里雲的神龍服務器。神龍架構負責人的旭卿(張獻濤)介紹,「神龍服務器是阿里雲近三年來投入巨大的資源,研發的新一代適合雲計算的計算架構的服務器,具有高彈性、高穩定和高性能的能力。」框架
阿里雲從2016年開始投入相關研發,2017年10月發佈了第一代神龍雲服務器。三年內,阿里雲從自研芯片開始、到自研設備+Hypervisor、最後成功自研神龍服務器,打通芯片、軟件、服務器硬件之間的斷層,首次實現了雲計算行業性能、資源的零損耗。機器學習
旭卿談到,在過去十幾年間,整個服務器的架構沒有太大的變化。所以在雲計算、甚至整個IT系統層面,業界都面臨歷史遺留問題,好比性能損失。分佈式
究其根本緣由,就是作芯片、服務器、軟件的廠商之間沒有太多的協同,缺少一個頂層的設計,每個領域,每個廠商都是但願把本身的東西作得很強,但作強以後對總體系統效率的提高不必定有幫助,這是咱們能夠感覺到的。微服務
從這個角度來看,咱們須要對整個計算架構作一些改變、革新和提高,提高總體的計算效率,這是阿里作神龍最初的初衷。
「規模到達必定程度的時候,纔會真切的感覺到它是一個須要解決的問題,你可能未來只有10臺、20臺、甚至200臺、2000臺服務器的時候,資源還跑不滿,在這種狀況下沒有太大的動力去投入上億資金解決這樣一個問題,而今天阿里雲的總體規模已經讓咱們必須直面這個問題,而且解決這個問題。」旭卿解釋道。
旭卿認爲,今天神龍正在定義IT行業新的計算範式,它不只僅能實現阿里雲的核心繫統100%上雲,解決虛擬化的性能、資源的開銷,而且也可以實現軟件、硬件完美融合,它的綜合表如今不少業務場景下都是超越物理機的性能表現。
說到物理機,旭卿還介紹了第三代神龍架構,它能夠提供的性能很是高,「咱們網絡的性能能夠作到每秒2500萬PPS的轉發,這個已是業界標杆的5倍,存儲性能其實也作到了100萬IOPS,是業界標杆的3倍,因此有了這樣一個東西以後,咱們承載雙11大促這種業務的話,其實已經比物理機的性能要高不少了。」
「固然最後咱們仍是認爲雲是IT的集大成者,真正的雲計算廠商有責任也有義務引導今天軟硬件方面的一些創新,回饋將來的IT技術變革打下基礎。」旭卿表示。
在語音和視覺方向,阿里也有所準備。達摩院實驗室的雷鳴就介紹了阿里的客服AI和視覺AI。
這是基於阿里巴巴真實客服人員的聲音定製的電話客服AI,基於今年發佈的新一代語音合成技術——KAN-TTS技術,這個技術可使語音合成的效果,和真人錄音的接近程度達到97%。阿里經過技術能夠把整個定製週期壓縮到20天,錄音週期就2天左右,這有效減輕了人工客服的負擔。
這種AI會不會徹底取代人工客服呢?其實,這種AI並非徹底替代人工,而是人工跟AI協同工做。AI能夠解決常規問題,剩下30%的問題則須要人工客服來解決,這是一個比較好的人機協同模式。
從數據來看,阿里巴巴AI天天調用超過1萬億次,服務全球10億人,日處理圖像10億張,日處理視頻120萬小時,日處理語音55萬小時,日處理天然語言5千億句。
達摩院在天然語言處理、智能語音、視覺計算等領域奪得40多項世界第一,同時天然語言處理在SQuAD機器閱讀評比中精確閱讀率首次超過人類,智能語音入選MIT Technology Review2019年全球十大突破性技術。這些技術在雙十一的貢獻有如下三個方面。
首先是天然語言處理方面,經過AliNLP平臺,賦能淘寶、天貓、盒馬、國際化等數十個BU的700多個核心業務。雙十一重點支持23個業務方,包括阿里媽媽、阿里雲、小蜜、菜鳥、新零售、天貓精靈等,在雙十一當天,在線調用量超過11億。
其次是客服AI,阿里小蜜承接了淘寶天貓平臺97%的在線服務需求,換算過來至關於8.5萬名人工客服小二工做量,其次阿里小蜜今年推出了多項新功能,包括直播小蜜、基於圖片的智能問答、多樣性文本生成。另外阿里小蜜並非一個單方向的能力,更多的是綜合了語音、語言、視覺、翻譯等能力,並且小蜜與用戶的交互,已經朝着文本、圖像、語音等多模態的方向發展。
在視覺方面,拍立淘日處理圖片10億張,今年雙十一,視覺AI對拍立淘作了技術升級,從一圖一物到一圖多物的升級,好比以前只識別一個元素,到今天全身穿搭一次性識別,並且這個技術在計算機視覺領域頂級會議上ICCV 2019上贏得一個冠軍。
AI不只幫助商品識別、客服與顧客之間的溝通,一樣,最重要的消費關係中也有大數據和AI的支撐。
阿里雲智能計算平臺事業部研究員關濤(觀濤)表示,雙十一的挑戰從商務角度看是商品和消費者最優化匹配的問題,往下則是大數據和AI能力的挑戰,
從數據來看,今年雙11數據量達到970 PB,這大概是一個什麼量級?央視網全部的電視劇和新聞節目的數據量是80 PB左右,對比來看,阿里巴巴經過大數據和AI技術分析出來大概是央視數據量的10倍以上。
這樣的數據能力背後的平臺是什麼?就是阿里十年前開始作的飛天大數據平臺。在雙11中,阿里使用了全自研的一整套平臺,平臺包括超過10萬臺規模服務器集羣,10+數據中心、10EB級別存儲、天天千萬級別的大數據和AI計算做業。
在AI方面,關濤介紹了後臺的流計算系統,它是一個數據實時計算系統,經過實時計算的模式,可以給系統、商家和消費者很是實時的數據的能力。流計算系統能夠經過實時計算和AI預測,支持商家的商業決策。據統計,去年2018年雙十一的時候,這樣的實時推薦給商家的智能決策,90%都會被商家採用。
實時計算的系統層面,可以支持TPS、天天有超過萬級別的在線實時在跑,天天處理超過10 Trillions of Records,包括實時分析、實時預警、實時搜索、在線機器學習、廣告實時推薦,這些都是大數據和AI在作的。
另外,還有飛天AI平臺,經過處理音頻和視頻元素,不只能夠作到千人千面,對於同一件商品,還能提供上千種不一樣的視頻封面。
商家可以上新產品和做出商業決策的一大前提是資金到位,這就涉及到網商銀行的業務了。
「網商銀行其實你們不必定多麼熟悉,我去以前都不清楚在作什麼。」螞蟻金服網商銀行研究員褚霸說到。
網商銀行成立於2009年,前身是阿里小貸。10年後的今天,網商銀行總共貸出去3000億的貸款,而這3000億貸款就是20個算法工程師完成的。褚霸認爲,「20我的就能很漂亮的把這件事完成,我以爲科技是最大的功臣。」
可以完成這樣一個業績的網商銀行,褚霸卻笑稱其爲「傻子銀行」,「由於網商實際上是一家銀行,不是作技術的,咱們是一個技術的整合者,前面幾位介紹那些技術都是被咱們很好的去整合到今天的系統裏面去。」
但其實並非「傻子」,在新的技術,好比說像雲延伸的技術引入方面,網商銀行其實仍是走在前面的。
還有實時反欺詐技術,這樣一整套的技術可以將不良率作到1%或者更低。從金融風險看,業界不良率是5%。「由於今天咱們有各類各樣的大數據,AI的計算能力,還有很是優秀的算法工程師可以把這些算力、算料、算法串聯起來,造成一個比較核心的競爭力。」褚霸解釋道。
在交易中,不可或缺的是記錄交易的數據庫,其中一大重點的POLARDB不容忽視。
阿里雲智能數據庫事業部資深技術專家曹偉(鳴嵩)介紹了阿里巴巴數據庫發展的歷史,通過三個階段:第一個階段是使用IOE,使用Oracle;到了201五、2016年開始自主研發POLARDB,再到今年100%上雲,全部阿里的核心的交易還有庫存等等業務都會使用POLARDB以及咱們的生態,就是物流雲都在POLARDB支持今年雙十一。
鳴嵩介紹道,咱們2010年作了去IOE這件事情,2013年開始起咱們把全部的Oracle系統下掉,換成AliSQL,今年咱們作了POLARDB,而POLARDB在今年雙十一達到8700萬次每秒的這麼一個峯值TPS,在它的背後咱們有在VLDB、SIGMOD、ICDE上發表的創新技術。
而在物流領域,那些咱們看的見的包裹中都蘊含着哪些看不見的技術。
雙11的包裹量從1.52億到今年的12.98億,大概提高了8倍,而後雙11包裹籤售破億時間點從原來的9天到今天咱們只需2.4天就能夠完成一個包裹的投遞。
「今年咱們雙11整個備貨量足能夠塞滿1000個鳥巢或者16000架A380飛機。菜鳥到如今爲止成立了大概6年的時間,這6年其實菜鳥已經把科技塞到將來的每一個毛細血管。」菜鳥北京技術中心資深技術專家陳罡(花名:行易)說道。
首先,在包裹產出也就是倉庫上。「菜鳥」用三個技術來達成數字化,即IOT技術、自動化技術和智能算法,確保實現數字化和智能化的倉儲能力。
例如,每一年雙十一,倉庫會招收不少臨時工,但因業務熟練度問題,臨時工培訓和熟練完成工做須要耗費大量時間,而今年IOT技術就包含了一個lemo設備,可以讓一個臨時工在幾分鐘以內學會怎麼操做,經過這個設備,臨時工能夠在一天以內達到99%的熟練度。
11月12日,阿里巴巴的董事長兼CEO張勇就在倉庫裏,花了5分鐘時間使用了Lemo,他親自點選了一些訂單,而且在10分鐘以內就把整個工做流程作完了。
目前,菜鳥在全國的自動化流水線已經超過了5000千米,自動化設備比去年增長了50%以上。在無錫還有一個機器人的生產線,在驛站這邊「秒取快遞」技術,自助能夠經過刷臉取快遞等一系列的。另外,電子面單使用率超過99%,大幅度的減小了整個中國的物流成本。
以上大多技術,都須要基礎設施去支撐。在基礎設施的人眼中,雙十一是什麼?
阿里雲智能基礎設施事業部資深技術專家 唐陵波(花名:龍現)談道,「咱們認爲雙十一就是華山論劍,阿里毫無疑問是世界第一。可是咱們認爲,全部的武功都不是一天練的,創新的內功和賦能的武器纔是咱們在華山之巔拿到的利器、基石。」
阿里是怎麼練內功的呢?這就要看阿里綠色數據中內心一個比較創新的技術,叫液冷服務器,這個技術在2016年上線了1.0版本,如今是2.0,已經在阿里作了大規模的部署。今年雙十一,液冷技術可以把每萬筆交易量的耗電量降到2度左右。若是全部的交易都放在液冷上實現的話,雙11當天能夠節約15萬度左右的電。
目前,阿里巴巴數據中心已經遍及了200多個國家和地區。這樣分佈普遍的數據中心被看做是易筋經同樣的肋骨,是驅動阿里一切商業行爲和商業流量的基礎,不只可以支持雙十一的峯值並且可以提供彈性的服務。另外,液冷技術近期將會開源。
練完內功再來看屠龍寶刀,也就是阿里的自研服務器,它可以優化阿里應用場景,促進產業生態研進。在存儲場景中,龍現重點介紹了AliFlash,它已經普遍運用在存儲場景裏面,經過硬件的創新和軟件技術的結合,阿里如今作到了軟件一體化上下的協同設計,在性能和功能上都有突破性的創新。
在阿里百萬級的服務器規模背後,怎麼讓資源可以充分利用?龍現說道,「我以爲極致彈性和自動化,是咱們可以支撐這麼大規模的服務器,放在咱們本身的數據中內心面的一個最重要的緣由。」
還有被龍現比做倚天劍的自研交換機,自研交換機就是阿里在網絡領域的一個重大的技術創新,其實是就是網絡界的去IOE,它承擔了大部分的核心流量、網絡流量,可以讓你們感知不到網絡的減速或「晃動」,使雙11平滑過去。
另外,RDMA網絡也是一個重點技術,今年像存儲計算分離以後的雲盤和核心數據庫的核心交易量,在去年的基礎上發展了3倍,全部的這一切就是阿里在數據中心網絡裏面作的幾個比較突出的工做。
供應鏈中也蘊含着太極拳。「你們都知道太極拳是以靜制動的,放在企業層面它更多強調的是人的協同。從當初集團決定雙11上雲使用神龍,到最後上線只有兩個月時間,供貨、備貨、測試都很是緊張,可是供應鏈的同事經過優化庫存、優化流程,而後去幫助供應鏈廠商優化資源共享,極大的提升了供應鏈的交付狀況,取得了較爲滿意的結果,有效的支持了雙11上雲這個目標。」龍現解釋道。
總結來看,支持雲上雙十一的硬核基礎設施,共有5項絕技縱橫江湖,綠色數據中心、開放式的網絡架構、RDMA高性能網絡、彈性跨域訪問和自研數據平臺。
在過去十幾年電商的發展的背後是技術力量的持續發展,電商的發展帶給技術巨大的挑戰,技術的突破和變革也支撐起電商業務規模的不斷壯大和商業場景的拓寬。
阿里巴巴淘系技術部資深技術專家洪海(花名:孤星)談道,咱們經歷了系統架構從集中式到分佈式,從中心化到去中心化,從私有云到混合雲,今天全面進入阿里雲的公有云的過程。在這個業務的高速發展的過程當中,一個個難題放在了技術人的面前,最大的挑戰來自雙十一,在這個巨大的商業盛況的背後是一層層技術的突破。
網絡、服務器、存儲這些基礎設施多年來發生了翻天覆地的變化,微服務,容器化,數據庫等一系列的底層技術和框架的持續演進,帶動了電商技術今天在搜索,個性化推薦,視頻互動,消息等各個應用領域支撐和鏈接着數億消費者。
解決了業務規模增加的技術瓶頸以後成本的問題擺在了阿里人的眼前。爲此,電商開始嘗試混合雲的架構,在大促時短期內租用雲的機器進行擴容,進而造成了雲單元,另外一方面又利用離線大數據集羣和在線集羣的錯峯互補,造成了混布技術。在這個階段我容器化技術飛速發展,Pouch容器和Sigma調度系統成爲了整個資源管理調度的基石,支撐了數百萬的容器的管理和運行。經過這一系列手段,應對雙十一峯值的計算資源的成本獲得了有效的控制。
在成本問題以後,阿里藉助神龍服務器、雲的彈性能力、秒級擴容技術、雲端一體研發等實現了更有效率和更加開放。
最後,孤星表示,「將來咱們將持續擁抱開源,擁抱雲原生技術,全面上雲。經過技術效率的提高推進商業更有效率,生態更加開放,讓技術創造新商業。」
本文做者:溫柔的養貓人
本文來自雲棲社區合做夥伴「新智元」,如需轉載請聯繫原做者。