雙11個性化推薦背後,阿里雲「舜天」如何應對百億次挑戰?

摘要: 2018天貓雙11在技術世界,創下很多新記錄,其中有一個記錄是11日當天阿里全平臺共爲用戶作個性化推薦453億次,這些推薦的圖片長度加起來能夠繞地球70圈。 當你在天貓/手淘上買買買的時,圖片會以不一樣格式或分辨率來轉碼呈現,這就要求後臺系統須要強大的算力來保障數倍於平時的轉碼需求。數據庫

2018天貓雙11在技術世界,創下很多新記錄,其中有一個記錄是11日當天阿里全平臺共爲用戶作個性化推薦453億次,這些推薦的圖片長度加起來能夠繞地球70圈。編程

當你在天貓/手淘上買買買的時,圖片會以不一樣格式或分辨率來轉碼呈現,這就要求後臺系統須要強大的算力來保障數倍於平時的轉碼需求。FPGA是可編程芯片中處理這類並行計算的最佳能耗比方案,這位曾經高冷的「王謝堂前燕」,經過雲計算的價值加成,正在賦能愈來愈多的科技創新。安全

在今年的XDF 2018大會上,阿里雲的工程師首次向業界揭開了阿里雲FPGA平臺「舜天」的神祕面紗,這臺雲端計算加速的新引擎初露鋒芒。服務器

圖片描述

/初識FPGA:計算加速新引擎/網絡

FPGA最大的特色是直接基於硬件編程,擁有高吞吐和低延時等特性,能夠很容易搭建出數據並行通道,同時完成流水線並行;相對於ASIC,又具備軟件的可編程性和靈活性,這讓它能完美適應AI等對大算力有剛性需求而且尚處於快速迭代期的場景。機器學習

圖片描述

FPGA能力模型編程語言

然而,傳統的FPGA線下開發,過程很是繁瑣。對於IP提供商或方案集成商來講,須要本身開發和維護硬件,推廣難、成本高。對於客戶來講,開發時也繞不開硬件環節,試錯成本大、週期長。性能

FPGA+雲正好是解決這些難題的最佳方案。學習

阿里雲工程師張振祥介紹,優化

「舜天」平臺整合了傳統FPGA產業鏈的多個環節:從芯片原廠商,硬件,IP供應商等等,將它們統一打包成平臺資源,使客戶能夠專一於算力的實現,而IP供應商能夠簡化交付流程,大幅優化交付週期和運營成本。

從2017年8月開始,「舜天」已經歷經三代產品迭代,最新上線的F3系列實例,可提供超過1000萬邏輯單元和高達47 TeraMACs的DSP計算能力。

以時序數據庫爲例,舜天平臺的處理效率比CPU高出30倍以上:單路FPGA實現的實測峯值性能爲2.97GB/s,相比之下,單核CPU壓縮的實測性能約爲90M/s。在圖片識別場景下,舜天F3提供的算力約至關於7臺CPU服務器,大幅下降了Capex成本,相比CPU服務器,TCO下降超40%。

圖片描述

並且,這個能力還能夠擴展,當開發者在處理高性能計算和機器學習時,每每須要多芯片共同計算。「舜天」提供了各種高速接口,可完成1/2/4片芯片互聯拓撲,並支持動態配置。以卡內雙芯片通訊爲例,帶寬高達600Gbps,同時支持多種輕量級傳輸協議,傳輸效率達95%。

/一睹真容:久經沙場的悍將/

在阿里巴巴內部,「舜天」其實已經久經沙場,支撐了包括雙11在內的超大型計算場景、城市大腦、時序數據庫、高清視頻編解碼等等明星業務都涉及FPGA加速。

以雙11舉例,在客戶經過淘寶/天貓APP或者網頁端瀏覽商品時,圖片須要以不一樣格式或分辨率來呈現。舜天平臺的並行計算能力,直接將圖片處理的延時縮減到CPU服務器的50%,將吞吐能力提高了數倍。

在基因賽場裏,「舜天「的表現也很出色,100Gbp全基因組分析時間被縮短至兩小時,速度比過去提高了10倍,單位成本也大大下降。全基因,指的就是把物種細胞裏面完整的基因組序列從第1個DNA開始一直分析到最後一個DNA,這種技術幾乎可以鑑定出基因組上任何類型的突變。

/化繁爲簡:大幅下降開發門檻/

在傳統軟件工程師眼裏,FPGA芯片的開發門檻是很高的,一方面須要瞭解HDL硬件編程,一方面須要對底層硬件和接口瞭如指掌。

在這次的XDF大會上,阿里雲工程師潘岳介紹了舜天平臺的解決方案。

首先,「舜天」增長了對高級系統語言的支持,包括C, C++, OpenCL等。這意味着開發者能夠在他們熟悉的編程語言和工做流程中順暢使用,並且確保本來基於CPU或GPU的開發能夠輕鬆移植到雲上的FPGA器件中。同時,阿里雲還提供了大量的參考設計和開發包,幫助開發者快速創建系統。

接口方面,「舜天」提供了統一的標準總線接口,包括:DDR4/五、PCIe、DMA等等,開發者無需動手,只須要關心內部邏輯實現(圖中灰色部分)。

圖片描述

此外,阿里雲還支持多種主流FPGA的Shell+Role實現,能夠適配跨平臺的Multi-boot方案,讓用戶可以輕鬆完成跨平臺遷移。

/IP加密隔離:安全不打折/

做爲FPGA生態的最重要一環,IP廠商很是在乎雲上的多租戶環境。既要須要確保IP產品不泄露,又要保證用戶購買的IP只能被本身使用。

爲此,阿里雲採用了IP加密、網絡隔離、IP所屬權和使用權分離等方式確保了用戶的源碼(或IP源碼)、發行包、部署環境全程對第三方徹底不可見,同時還提供健康監控能力,及時感知底層故障並實時報警。

圖片描述

做爲最先入住舜天平臺的IP提供商之一,聯捷計算科技CTAccel CEO俞海樂博士表示,

上雲後安全是咱們最關注的問題,阿里雲的安全隔離作得很是到位,這也是咱們優先選擇阿里雲進行部署的緣由。

/不變的使命:共建普惠異構生態/

此前阿里雲的Slogan「爲了沒法計算的價值」一直深刻人心,積極佈道普惠計算。自推出異構計算依賴,開發者在阿里雲上能以更少的價格使用性能更強的GPU/FPGA實例,在深度學習領域將開發成本下降了一半以上。

爲了讓更多開發者可以享受到FPGA的收益,阿里雲推出了FPGA彈性雲服務器,並創建了FPGA鏡像市場,讓具備創新思路和成熟解決方案的IP產品經過平臺脫穎而出,擴大市場規模,加快研發進度,提升設計穩定性。

張振祥說,

舜天是阿里雲使能人工智能產業的一大利器,咱們歡迎更多的開發者加入阿里雲FPGA生態,推進技術落地到產業中去。

相關文章
相關標籤/搜索