[轉帖]InfiniBand 主流廠商 和 產品分析

InfiniBand 主流廠商 和 產品分析

 

 

      Mellanox成立於1999年,總部設在美國加州和以色列,Mellanox公司是服務器和存儲端到端鏈接InfiniBand解決方案的領先供應商。2010年末Mellanox完成了對著名Infiniband交換機廠商Voltaire公司的收購工做,使得Mellanox在HPC、雲計算、數據中心、企業計算及存儲市場上得到了更爲全面的能力。算法

      還有一家InfiniBand技術廠商就是Intel,Intel拿出1.25億美圓收購QLogic的InfiniBand交換機和適配器產品線發力於高性能計算領域,但今天咱們重點討論Mellanox的產品、技術和趨勢。編程

IB 網絡和拓撲組成服務器

      InfiniBand結構基於信道的串口替代共用總線,從而使I/O子系統和CPU/內存分離。全部系統和節點可經過信道適配器邏輯鏈接到該結構,它們能夠是主機、適配器(HCA)或目標適配器(TCA),還包括InfiniBand交換機和路由器擴展,從而知足不斷增加的需求。markdown

      InfiniBand也是一種分層協議(相似TCP/IP協議),每層負責不一樣的功能,下層爲上層服務,不一樣層次相互獨立,每一層提供相應功能。InfiniBand協議可知足各類不一樣的需求,包括組播、分區、IP兼容性、流控制和速率控制等。網絡

      InfiniBand網絡路由算法包括最短路徑算法、基於Min Hop的UPDN 算法和基於Fat Tree組網FatTree算法。架構

      算法在必定程度上也決定了InfiniBand網絡拓撲結構,尤爲在高性能計算、大型集羣系統,必需要考慮網絡之間的拓撲結構,網絡上行和下行鏈路阻塞狀況也決定着整個網絡性能。因爲樹形拓撲結構具有清晰、易構建和管理的有點,故而胖樹網絡拓撲結構經常被採用,以便可以發揮出InfiniBand網絡優點,也一般應用在無阻塞或阻塞率很低的應用場景,因此咱們下面咱們重點討論下。socket

      在傳統的三層組網架構中(二層架構也常常用到),因爲接入層節點數量龐大,因此要求匯聚層或核心層的網絡帶寬和處理能力與之匹配,不然設計出來的網絡拓撲結構就會產生必定的阻塞比。性能

 

      爲了解決這一問題,在匯聚層和核心層就要採用胖節點組網(若是採用瘦節點就必定發生阻塞,且三層組網阻塞比二層組網更加嚴重),如上圖胖二叉樹事例,胖節點(Fat Tree)必須提供足夠的網絡端口和帶寬與葉子節點匹配。雲計算

      採用胖樹拓撲網絡的結構通常由葉子(Leaf)和主幹(Spine)交換機組成,葉子交換機與服務器或存儲等信道適配卡相連,分配一部分端口給節點,另外一部分端口被接入網絡中。在InfiniBand網絡中Fat Tree組網結構具備下面幾個特色。操作系統

1)         鏈接到同一端Switch的端口叫端口組,同一Rank級別的Switch必須有相同的上行端口組,且根Rank沒有上行端口組;除了Leaf Switch,同一Rank的Switch必須有相同的下行端口組。

2)         同一Rank的每一個上行端口組中端口個數相同;且同一Rank的每一個下行端口組中端口個數也相同。

3)         全部終端節點的HCA卡都在同一Rank級別上。

      上圖是一個採用二層架構的無阻塞Fat Tree組網事例,接入層下行提供1296個IB端口給服務器或存儲適配卡,上行也提供適配器給匯聚層。但從一個接入IB交換機來看,上行和下行分別提供18個接口實現無阻塞組網。胖樹拓撲結構一方面提供費阻塞數據傳輸,另外一方面提供網絡冗餘加強網絡可靠性。

 

軟件協議棧OFED

      爲服務器和存儲集羣提供低延遲和高帶寬的企業數據中心(EDC),高性能計算(HPC)和嵌入式應用環境。 Mellanox全部適配卡與基於Open Fabrics的RDMA協議和軟件兼容。2004年OpenFabrics Alliance成立,該組織致力於促進RDMA 網絡交換技術的發展。2005年,OpenFabrics Alliance發佈了第一個版本的OFED(OpenFabrics Enterprise Distribution)。

 

      Mellanox OFED是一個單一的軟件堆棧,包括驅動、中間件、用戶接口,以及一系列的標準協議IPoIB、SDP、SRP、iSER、RDS、DAPL(Direct Access Programming Library),支持MPI、Lustre/NFS over RDMA等協議,並提供Verbs編程接口;Mellanox OFED由開源OpenFabrics組織維護。

      若是前面的軟件堆棧邏輯圖過於複雜,能夠參考上面的簡明介紹圖。Mellanox OFED for Linux (MLNX_OFED_LINUX) 做爲ISO映像提供,每一個Linux發行版,包括源代碼和二進制RPM包、固件、實用程序、安裝腳本和文檔。

 

InfiniBand網絡管理

      OpenSM軟件是符合InfiniBand的子網管理器(SM),運行在Mellanox OFED軟件堆棧進行IB 網絡管理,管理控制流走業務通道,屬於帶內管理方式。

      OpenSM包括子網管理器、背板管理器和性能管理器三個組件,綁定在交換機內部的必備部件。提供很是完備的管理和監控能力,如設備自動發現、設備管理、Fabric可視化、智能分析、健康監測等等。

 

並行計算集羣能力

      MPI (Message Passing Interface) 用於並行編程的一個規範,並行編程即便用多個CPU來並行計算,提高計算能力。Mellanox OFED for Linux的InfiniBand MPI實現包括Open MPI和OSU MVAPICH。

      Open MPI是基於Open MPI項目的開源MPI-2實現,OSU MVAPICH是基於俄亥俄州立大學的MPI-1實施。下面列出了一些有用的MPI連接。

      RDS (Reliable Datagram Socket)是一種套接字API,在sockets over RC or TCP/IP之間提供可靠的按順序數據報傳送,RDS適用於Oracle RAC 11g。

 

基於socket網絡應用能力

      IPoIB/ EoIB (IP/Eth over InfiniBand) 是經過InfiniBand實現的網絡接口實現,IPoIB封裝IP數據報經過InfiniBand鏈接或數據報傳輸服務。

      SDP (Socket Direct Protocol) 是提供TCP的InfiniBand字節流傳輸協議流語義,利用InfiniBand的高級協議卸載功能,SDP能夠提供更低的延遲更高帶寬。

存儲支持能力

      支持iSER (iSCSI Extensions for RDMA)和NFSoRDMA (NFS over RDMA),SRP (SCSI RDMA Protocol) 是InfiniBand中的一種通訊協議,在InfiniBand中將SCSI命令進行打包,容許SCSI命令經過RDMA(遠程直接內存訪問)在不一樣的系統之間進行通訊,實現存儲設備共享和RDMA通訊服務。

      RDMA (Remote Direct Memory Access)技術是爲了解決網絡傳輸中服務器端數據處理的延遲而產生的。RDMA經過網絡把數據直接傳入計算機的存儲區,將數據從一個系統快速移動到遠程系統存儲器中,而不對操做系統形成任何影響,這樣就不須要用到多少計算機的處理功能。它消除了外部存儲器複製和文本交換操做,於是釋放內存帶寬和CPU週期用於改進應用系統性能。

Mellanox產品介紹

      Mellanox是服務器和存儲端到端鏈接解決方案的領先供應商,一直致力於InfiniBand和以太網互聯產品的研發工做,也是業界公認的超高速網絡典型表明。下面咱們重點看看InfiniBand和相關產品介紹。

      InfiniBand產品搭配先進的VPI技術使得單端口適配業務需求,主要產品包括VPI系列網卡、交換機。芯片產品也是保障全部系列產品的可靠基石。種類豐富的線纜是實現高速互聯網絡的重要保證。除了硬件外,InfiniBand配套加速軟件和統一管理軟件豐富整個產品家族。

 

                             Infiniband交換機

      在IB網絡內提供點到點高速通訊;基於LID技術將數據從一個端口送到另一個端口 ,當前單個交換機支持從18到864節點等規模不等,支持SDR(10Gbps)、DDR(20Gbps)、QDR(40Gbps)、FDR10(40Gbps)、FDR(56Gbps)等。

      從SwitchX 到Switch IB,SwitchX是支持十、20、40、56 G IB主流的芯片,下一代芯片Switch IB支持IB EDR 100Gb/s,而且向前兼容,後面還有SwitchX3支持100G和IB EDR。

      基於ConnectX系列網卡和SwitchX交換機能夠實現以太網和IB網絡的虛擬協議互聯(VPI),實現鏈路協議顯示或自動適配,一個物理交換機實現多種技術支持。虛擬協議互聯支持整機VPI、端口VPI和VPI橋接,整機VPI實現交換機全部端口運行在InfiniBand或以太網模式,端口VPI實現交換機部分端口運行InfiniBand、部分端口運行以太網模式,VPI橋接模式實現InfiniBand和以太網橋接。

      邊緣(機架) InfiniBand交換機系統支持8到36端口,提供非阻塞40到100Gb 端口,在1U的空間可提供7.2Tb的帶寬,這些邊緣交換機是組成中小型費阻塞網絡集羣Leaf節點的理想選擇。邊緣交換機使用先進的InfiniBand交換技術(如自適應路由、擁塞控制和服務質量等)旨在構建最有效的交換矩陣。

 

      核心InfiniBand交換機系統支持108至648端口,提供全雙向40至100Gb端口, InfiniBand核心交換機系統提供高密的解決方案,在一個機框內帶寬能夠8.4Tb至130Tb之間靈活擴展,可達數千個端口。針對關鍵任務應用,InfiniBand核心交換機提供核心級可用性,系統全部部件都採用冗餘技術設計。

                         InfiniBand適配器

      Inifiniband的主機信道適配器HCA(網絡接口卡),一般經過PCIE接口與主機鏈接,插在或集成在服務器內;支持PCI-E 8X插槽(雙端口和單端口)。提供Inifiniband的網絡鏈路接入能力。等同於以太網的NIC。HCA包含三代芯片:目前主流的QDR,FDR使用的芯片爲ConnectX3,OSCA使用的也是ConnectX3

      目標信道適配器(TCA)提供InfiniBand到I/O設備的鏈接,綁定在存儲或網關設備等外設。

 

                              Infiniband路由器和網關設備

      Infiniband路由器完成不一樣子網的infiniband報文的轉發。Mellanox的SB7780是基於Switch-IB交換機ASIC實現的InfiniBand路由器,提供EDR 100Gb s端口能夠鏈接不一樣類型的拓撲。所以,它可以使每一個子網拓撲最大化每一個應用程序的性能。例如,存儲子網可使用Fat Tree拓撲,而計算子網可使用最適合本地應用程序的環路拓撲。

      SX6036G是採用Mellanox第六代SwitchX 2 InfiniBand構建的交換機網關設備,提供高性能、低延遲的56Gb FDR Infiniband到40Gb以太網的網關,支持InfiniBand和以太網鏈接的虛擬協議互連(VPI)技術,VPI經過一個硬件平臺可以在同一機箱上運行InfiniBand和以太網網絡協議。 

                Infiniband線纜和收發器

      Mellanox LinkX互連產品包括十、2五、40、50和100 Gb/s豐富銅纜、有源光纜以及針對單模光纖和多模光纖應用的收發器。

      LinkX系列提供200Gb/s和400Gb/s電纜和收發器等關鍵組件,對於InfiniBand互連基礎設施來講,讓端到端的200Gb/s解決方案成爲可能。

相關文章
相關標籤/搜索