阿里雲ECS的異構計算團隊和高性能計算團隊一直致力於將計算資源"平民化";高性能計算團隊在作的E-HPC就是要讓全部雲上用戶都可以瞬間擁有一個小型的超算集羣,使得超算再也不僅僅是一些超算中心和高校的特權;而咱們異構計算團隊則致力於將目前最快、最新的計算設備在雲上提供給用戶,使得曾經高冷的計算資源再也不拒人千里以外:咱們推出了FPGA雲服務器FaaS 服務, 其中的F1和F2實例已經對外提供服務,能夠經過一鍵部署的方式把Intel和Xilinx的小規格的器件計算能力賦予客戶。安全
今天咱們很高興地宣佈:新晉的大規格FPGA實例,基於Xilinx 16nm Virtex UltraScale+ 器件VU9P的異構計算實例F3在阿里雲上線了!服務器
咱們藉此機會,對阿里雲FPGA計算服務(下面簡稱FaaS)自己,以及此次發佈的F3實例的底層硬件架構和平臺架構作一個技術解讀。架構
阿里FPGA雲服務器平臺FaaS(FPGA as a Service)在雲端提供統一硬件平臺與中間件,可大大下降加速器的開發與部署成本。加速器開發商的加速器能夠造成服務提供給加速器用戶,消除加速技術與最終用戶的硬件壁壘。用戶則可以在無需瞭解底層硬件的狀況下,直接按需使用加速服務。工具
爲了給加速器提供方和使用方提供更加高效、統一的開發及部署平臺,FaaS提供兩大套件:HDK和SDK。性能
HDK給全部的加速器開發者提供統一的FPGA硬件接口,提早幫用戶解決了FPGA開發中難度最大的高速接口開發及調試,例如PCIe、SERDES接口、DDR控制器等等;使得用戶可以直接獲得硬件平臺和FPGA接口的最大性能,不會由於團隊開發能力和經驗的欠缺,形成硬件平臺性能浪費;高效、可靠、統一的接口套件也爲雲上平臺的安全隔離、設備穩定提供了保障,不會由於用戶的接口設計問題,形成服務器宕機;同時能夠杜絕用戶在FPGA端對主機的非法操做,爲整個雲上安全提供保障。阿里雲
HDK包括兩個部分,Shell和 Role;Shell部署在靜態區域,提供上述統一接口部分。編碼
在提供統一接口、安全性和便捷性的前提下,阿里雲FaaS HDK 也盡最大的努力保證用戶設計的靈活性,Role的概念應運而生。Role部署在動態區域,是在Shell以外,預先開發並提供的,用戶能夠配合用戶邏輯(Customer Logic)使用。不一樣於Shell,用戶能夠根據須要,隨時更換Role部分;這種Shell + Role的組合方式,保證了Shell的最輕量化和穩定性,又兼顧了統一性、便捷性和靈活性。加密
SDK包括兩個部分:spa
一、和HDK(Shell+Role)對應的主機端驅動(Drivers)和軟件庫(Libraries)設計
二、FPGA管理工具 faascmd套件
驅動和軟件庫和HDK的Shell以及Role相對應,和HDK一塊兒,爲用戶提供統一及靈活的軟件支持,好比DMA驅動、寄存器訪問驅動等等。
faascmd工具套件爲用戶提供雲上FPGA管理服務,包括安全校驗、FPGA鏡像生成、下載及管理、FPGA加速卡狀態查詢反饋等功能。公有環境使用FPGA,須要考慮用戶FPGA文件的安全,faascmd提供的祕鑰及OSS bucket指定機制,有效保證了用戶的FPGA下載文件的私密性。在線下的開發及應用中,開發者直接對FPGA進行下載操做,但在雲上環境,用戶對公有的FPGA資源直接操做對安全形成較大影響。Faascmd工具會對用戶操做申請和物理FPGA資源進行隔離,保證了用戶下載安全的同時,提供給用戶相似線下操做的體驗;同時會對用戶提交的網表進行校驗,提升安全、下降風險。faascmd同時也提供調用接口,用戶能很容易地在本身的App中調用管理工具,結合自身加速器特性實現各類管理功能。
FaaS下降了FPGA開發者的開發准入門檻:雲上即開即用的FPGA資源、靈活的付費模式使得硬件資源觸手可及;同時簡化了開發流程,統一了開發接口,把核心加速邏輯從周邊硬件設備的接口調試中隔離出來,使得FPGA的新興應用能夠只關注業務加速的核心邏輯,快速迭代;在這兩點上,阿里雲的FaaS 邁出了FPGA計算資源平民化的第一步。
但即使是大大簡化了開發流程、提供了觸手可及的硬件資源,FPGA依然有必定的開發門檻。如何把已有的FPGA 邏輯IP價值最大化,聯通FPGA加速的需求方和提供方來擴大生態呢?重要的一點就是如何解決在公共雲數據中心層面保證FPGA加速IP的安全性,特別是對不可信的第三方進行輸出和部署這個難題, FaaS是如何解決這個問題的呢?
答案是經過阿里雲FaaS的IP市場。技術上,經過與Xilinx聯合開發的定製虛擬化技術達到IP加速與部署環境的強隔離,IP的用戶與IP的網表文件徹底隔離,網表文件的傳輸、部署、加速流程全程對用戶都不可見;同時加速計算能力又能夠透明地向使用該IP的第三方用戶開放,這是阿里雲在FPGA雲上加速服務的另一個技術創新。這個創新,徹底杜絕了FPGA IP在雲上輸出的時候被盜版的可能,提供了很是高的安全保護機制。
更加嚴格的保密機制也在規劃中:很快能夠經過阿里雲的KMS加密服務對IP進行加密保護,每次對IP加載前都須要向KMS服務獲取祕鑰解密,這樣一來針對IP的使用下載有據可查;而且使得IP發佈方的IP在數據中心內部都是安全的,由於沒有了IP提供方的KMS祕鑰,即使是阿里雲也沒法對加密的網表進行解密操做。
在阿里雲FaaS IP 市場的幫助下,即使是歷來沒有任何FPGA開發經驗的用戶,也能夠一鍵從IP市場中獲取相應的加速邏輯,並快速部署到對應的FPGA器件上面去。咱們相信,經過即開即用的硬件資源、統一的軟硬件邏輯開發接口和IP市場,阿里雲可以真正兌現FPGA計算資源平民化的承諾。
阿里雲FaaS的F3實例在底層硬件上,是使用阿里雲自主研發的高性能單卡雙芯片的VU9P的板卡。這裏要劃重點啦:單卡雙芯片。必定有用戶要問爲何要這麼設計呢?單卡雙芯片的硬件設計有什麼好處呢?
首先,對於用戶來講,經過單卡雙芯片這樣的規格設計,與阿里雲配套自研的服務器一塊兒,最高能夠提供單實例16 塊 VU9P的計算實例。16塊 VU9P是很是高的計算密度了,這是設計單卡雙芯片的第一個目的:經過提升計算密度,在同等計算單元下集成了更多的加速芯片,可以有效下降單位計算力的成本,從成本大幅下降和單位實例的垂直計算力提高上,客戶能夠雙重受益。
單卡雙芯片的兩個VU9P芯片經過PCIe 橋接入系統,那麼雙芯片之間的互相通訊呢?是否是隻能經過PCIe的總線來進行呢,答案是否認的,除了FPGA Direct這種經過PCIe互相通訊的能力以外,在阿里雲的自研的板卡上也是有特殊考慮的。在兩個芯片之間,咱們設計了一個高速互聯通道,使得兩個FPGA之間能夠經過這個特殊的通道以高達600Gb/s的速率進行通訊,這個通訊技術咱們稱之爲FPGA Link。要知道,如今的數據中心主流部署的接入交換機光口通訊也只能達到100Gb/s的通訊速率,更高的200Gb/s的交換機還在試部署中。
試想一下,無需額外的交換機和光口硬件,兩個FPGA芯片能夠經過FPGA Link技術以超短時延經過6倍於主流光口通訊的速率進行通訊,這個將會以極低的成本幫助用戶開啓大量新的FPGA加速應用模式。好比,小規模的芯片仿真,須要兩個器件才能部署得下的狀況,能夠將總體仿真模塊拆解以後部署到兩個芯片上,兩個芯片之間的數據通路和同步信號經過高速通道互聯;還有其餘的應用場景,須要把功能模塊部署到兩個FPGA芯片之上,而二者之間須要大量的數據交換,好比視頻轉碼場景:把小規模可是模塊數目比較多的解碼單元、視頻處理單元部署到一個FPGA之上,把面積佔用比較多的編碼單元放到另一個FPGA上,編解碼模組之間經過高速互聯交換裸視頻流。這將大大改善部署的難度,以及極大的解耦兩個模塊之間的相互依賴和設計難度。以上舉了兩個例子,讀者必定可以觸類旁通地想到,其餘須要流水線處理並須要大量數據交換的場景,阿里雲的F3實例的雙芯片實例可以爲客戶提供最大的價值。
很多應用場景對板載的DDR存儲仍是有要求的。阿里雲的F3實例,爲每一個FPGA搭配了客戶可見的64GB的DDR內存,這64GB的DDR分紅4個通道,分別鏈接到VU9P的3個硅單元上面,其中一個通道對應的16GB DDR保留常駐,其他3個通道對應的48GB存儲以可選的方式可被客戶邏輯加載使用。
目前,咱們看到了雙芯片實例除了FPGA Direct技術和高達600Gb/s的FPGA Link高速互聯能力以外,另外值得一提的是:雙芯片的實例與其餘的雙芯片實例板卡之間也能夠經過400Gb/s的光口進行互聯,並且400Gb/s的以太協議驅動是經過Xilinx預置的MAC硬核來加速,不佔用邏輯面積;經過以太或者自定義的輕量級通訊協議,可以在16芯片之間,以及更多的芯片之間搭建2維Mesh或者環形互聯,進一步擴展多片互聯的使用模式和應用場景。
最後,上一張圖,讓你們對上面作的硬件的技術解析有一個更具體的認識:
F3邏輯結構,技術分析以前,先給你們上一幅邏輯架構圖:
SHELL:
Shell是FPGA的靜態區域,內部包含用戶PCIe、管理PCIEe、板卡管理系統和一個DDR訪問通道。爲了提升板卡的安全和穩定性,用戶無權修改SHELL區域。
ROLE:
咱們在設計中提出了Role的概念,Role和Shell是相似的封裝。而Role跟Custom Logic一塊兒在動態區域。Role的提出使咱們能夠更加輕量化Shell。咱們經過Role實現了同一個Shell既能夠支持OpenCL開發,也能夠支持RTL開發;最後就是Role的再次抽象下降了用戶對於FPGA的開發門檻。咱們提供基礎的Role,也容許用戶自行設計Role。咱們但願更多第三方的設計者經過分享本身Role,使得FaaS平臺更加精彩。
Interconnect:該部分主要是提供給用戶四路DDR通道的訪問和USER_PCIe對四路DDR通路的訪問。 該模塊幫助用戶隔離了時鐘域,使用戶邏輯在同一個時鐘域上對4路DDR通道進行訪問。
Inter chip interconnect: FPGA 單卡雙芯片間互聯通路;
Card interconnect: FPGA 卡間互聯通路;
Custom Logic:用戶自定義邏輯部分;
用戶邏輯是屬於Role的一部分,屬於動態加載區域。 爲了方便用戶標準化使用,咱們在RTL設計中使用了標準的AXI-4和AXI-LITE接口。
一、咱們將詳細介紹用戶接口,其列表以下:
注:板間互聯,卡卡互聯接口邀測階段缺省不提供,須要特殊申請對外開放。
二、AXI-4 and AXI-Lite 限制
三、正如咱們在介紹Role中所述,用戶能夠定製化Role操做。咱們阿里雲FaaS團隊爲了方便用戶更有效的使用平臺,多個Role版本正在發佈中,敬請關注。下降用戶使用門檻,縮短開發時間,健全FPGA使用生態始終是咱們的使命。