yxr注:html
1)在研究openpower時,看到mellanox公司是鉑金會員,其infiniband產品佔據了超算(HPC)互聯的40%份額。web
繼而研究infiniband技術和fiber channel,以太網,PCIE等等的關係,搜索羅列以下網頁編程
RDMA現狀以及TOE的網站api
2) Infiniband不一樣於以太網,後者以網絡爲中心,操做系統處理各類網絡層協議,而infiniband以應用程序爲中心,繞過操做系統和CPU不用負責網絡通訊,直接offload了CPU的負荷!服務器
3)沒有深刻研究,不知道infiniband的HCA和內存控制器如何相連,之前是Hub link,如今吧呢?猜想仍是PCIE吧網絡
沒有研究infiniband和PCIE的競爭,價格優劣以及性能優劣,好像低端的超算的使用PCIE。架構
沒有評估infiniband和omini-path,cray的技術,市場,價格的。分佈式
=================佈局
http://www.chinastor.com/a/hpc/111S5M32016.html性能
在最新發布的全球超級計算機Top500榜單中,InfiniBand再次延續了其在互連方案上的絕對領先地位。2016年基於InfiniBand解決方案的終端用戶數量較Omni-Path高出近四倍,是Cray Aries的五倍,充分證實InfiniBand持續增加的使用率和市場份額。
InfiniBand互聯方案現在加速了65%的超算系統,並在TOP500榜單中的所有千萬億次系統中佔據了近半壁江山(46%)。Mellanox持續爲全球最快的超算系統提供互連,知足了其對高性能、高可擴展及高效網絡的需求。此外,Mellanox以太網解決方案還鏈接了榜單中首個100Gb以太網系統和全部的40Gb以太網系統。
* 在2016 年TOP500 HPC項目中,65個終端用戶選擇了InfiniBand,用戶數量比 Omni-Path 高出近4倍,與 Cray Aries 相比高出5倍
(yxr注:只有65個終端?)
===============================
http://www.ssdfans.com/?p=767
互聯芯片對超算的巨大做用 咱們來看看美國田納西大學計算機學教授傑克·唐加拉對中國超算的評價:雖然」天河一號」的處理器仍主要採用美國產品,但其互聯芯片已所有替換爲中國研究人員自主研製的產品。他說:」互聯芯片主要涉及處理器之間的信息流動,對於超級計算機的總體性能起到關鍵做用。’天河一號’的互聯芯片由中國研製,具備世界最早進的水平。」(《中國超級計算機運算速度奪冠 互聯芯片自制》,http://info.ec.hc360.com/2010/11/171024365014.shtml)中國作出全球排名第一的天河一號超級計算機,自主研發的互聯芯片立了大功。
Intel代號爲Knights Landing的第二代Xeon Phi處理器配備了Omni Path高速互聯接口。Intel在高速互聯領域很在就開始佈局,早在2012年就收購了QLogic Infiniband技術和Cray的互聯技術。它的最終目標是開發Infiniband和True Scale的替代技術,可以更快,更好,更便宜。因此,Intel推出Omni-Path真是煞費苦心,不是簡單的一個接口,而是完整的生態鏈。
=======
https://www.ibm.com/developerworks/cn/aix/library/1105_luoming_infiniband/index.html
網絡是經常被認爲是路由器、交換機和插在服務器和存儲設備上的電纜的集合。在大部分人的印象裏,網絡用來鏈接服務器到其餘服務器、存儲和其餘網絡。其實,這是一種廣泛存在的對網絡的片面見解,它將過多的注意力集中在處於網絡底層結構的電纜和交換機上。這是典型的「以網絡爲中心的」觀點:認爲網絡的構成架構應該決定應用程序的通信模式。
Infiniband 網絡則基於「以應用程序爲中心」的新觀點。它的提出來源於一個簡單的問題:如何讓應用程序訪問其餘應用程序以及存儲儘量的簡單、高效和直接?若是以「應用程序爲中心」的觀點來思考 I/O 問題,就能獲得一種與傳統徹底不一樣的網絡架構。
Infiniband 基於一種很是簡單的原則:提供一種易於使用的消息服務。這個服務能夠被用來與其餘應用程序、進程或者存儲進行通訊。應用程序再也不向操做系統提交訪問其餘資源的申請,而是直接使用 Infiniband 消息服務。Infiniband 消息服務是一個很是高效、直接的消息服務,它摒棄了傳統網絡和應用程序之間消息傳遞的複雜結構。直接使用 Infiniband 服務意味着應用程序再也不依賴操做系統來傳遞消息,這大大提升了通訊效率。如圖 1,Infiniband 消息服務能夠在兩個應用程序之間建立一個管道,來使應用程序之間直接進行通訊,從而繞過了操做系統,大大提升了效率。
========
在http://icon.zhiding.cn/zdnet/itpapers/WP_Scalable_Storage_InfiniBand_Final.pdf中
那麼,什麼是InfiniBand,爲何愈來愈多的存儲系統銷售商不論是背板仍是網絡鏈接都要用到此鏈接?InfiniBand是一種在2000年左右出現的,基於標準的網絡協
議。InfiniBand整合了NGIO和Future I/O(PCI總線替換技術的競爭技術)這兩種技術。
從設計上來講,InfiniBand具備總線技術的特色,但實際上,PCI Express——最終產生的PCI替換技術,從概述上來講是InfiniBand的一個子集。
InfiniBand與其餘網絡的核心區別有兩個方面。
首先,其採用的是一種基於信用的流量控制系統(這個和PCIE一致)。即在接收對象未保證充足的緩衝以前,不會發送數據。這樣,就使得InfiniBand成爲像無損光纖通道網絡架構那樣的光纖通道。
其次,InfiniBand支持遠程直接內存訪問(RDMA),具有在徹底卸載CPU和操做系統的方式下,在兩個遠程系統的存儲區域移動數據的能力。做爲原始總線設計遺留下來的的理念,如要對分佈式系統進行擴展,RDMA是關鍵。有RDMA的InfiniBand具有多種關鍵優點。
InfiniBand的物理信號技術一直超前於其餘網絡技術,使得它都具有比其餘任何網絡協議都大的帶寬。目前以56Gb/s運行的InfiniBand,其發展路線預計達到EDR(100Gb/s)的
時間是一年半左右。InfiniBand這一名稱自己即說明了其無限的帶寬發展前景。InfiniBand路線圖設計的目的就是要保證單個鏈路的帶寬可以保持在大於PCIExpress(PCIe)總線數據速率的水平。這樣,系統就可以以其可產生的最快速度,在網絡間移動數據,而且不會因出現因網絡限制而致使的備份。這樣,就可以讓 InfiniBand具有無限帶寬。
=========================
http://blog.163.com/s_u/blog/static/13308367201231253232968/
yxr注:比較老,可是能看到歷史
而InfiniBand彌補了PCI總線的上述缺陷,以一種全新的方式把網絡中常見的交換和路由概念引入了I/O子系統當中。在InfiniBand架構中,最主要的硬件部分就是HCA、TCA和IB Link。HCA是Host Channel Adapter的縮寫,它是鏈接內存控制器和TCA的橋樑;TCA是Target Channel Adapter的縮寫,它將I/O設備(例如網卡、SCSI控制器)的數字信號打包發送給HCA;IB Link包含了鏈接HCA和TCA的光纖以及光纖交換機、路由器等整套設備。在現階段一根光纖的傳輸速率是2.5Git/s,支持全雙工模式,而且能夠把多條光纖捆綁到一塊兒工做,目前的模式有x四、x12兩種。
一言以蔽之,InfiniBand架構的核心就是把I/O子系統從服務器主機中剝離出去,經過光纖介質,採用基於交換的端到端的傳輸模式鏈接它們
下面咱們看一下在InfiniBand架構中,數據是如何傳輸的。如圖1所示,InfiniBand架構相比PCI總線的方式更前進了一步,在內存控制器與HCA之間是經過Hub Link方式相連的,目前的標準是Hub Interface2.0。Hub Link是一種串行總線,它的工做頻率能夠提到很高,而它最大的優點就是良好的可擴展性,主板設計師能夠根據須要的總線帶寬在內存控制器和HCA之間選擇多條Hub Link總線。
從圖1中能夠看出,數據從網卡或硬盤首先經過各自的I/O控制器送給TCA,再由TCA經過InfiniBand Link通過交換機甚至路由器送到HCA,再經過Hub Link總線送到內存控制器
InfiniBand對數據在傳送中的處理幾乎照搬了以太網協議的所有思想。和TCP/IP協議集極其類似,InfiniBand就是示分了 6個協議層,從Transport層向下各層數據的封裝都是由TCA和HCA本身完成的,不須要佔用系統CPU的資源,交換機和路由器工做在 Network層。若是超越了Transport層,HCA會把任務交給系統處理,這一部分的工做須要操做系統的支持,可是對於TCA來講,它是不須要考慮這些的,只要把物理層的信號打包生成網絡層能夠識別的packet,它的工做就算完成了。
=========================
http://dylan602.blog.163.com/blog/static/167974276201181934727159/
InfiniBand規範定義了3個基本組件:
一個主機信道適配器(HCA) 一個目標信道適配器(TCA) 一個網絡交換機 |
InfiniBand技術經過鏈接HCAs、TCAs、交換機和路由器而發揮做用(見 圖3 )。位於頁節點的InfiniBand設備是產生和使用信息包的信道適配器。
HCA 和TCA能夠提供一個無需CPU干預的高可靠端-至-端鏈接。HCA駐留在處理器節點並提供從系統內存到InfiniBand網絡的通路。它也有一個可編程的直接內存訪問(DMA)引擎。該引擎具備特殊保護和地址翻譯特性,從而使DMA操做能夠本地進行或者經過另外一個HCA或TCA遠程進行。
TCA駐留在I/O單元,並提供I/O設備(如一個磁盤驅動器)或I/O網絡(如以太網或光纖通道)與InfiniBand網絡的鏈接。它實現了InfiniBand協議的物理層、連接層和傳輸層。
交換機放置在信道適配器之間。它們使幾個甚至幾千個InfiniBand頁節點能夠在任意位置互連進一個單一網絡,該網絡同時支持多個鏈接。交換機既不產生,也不使用信息包。它們只是根據信息包中路由器報頭的目的地地址,將其傳送過去。交換機對於節點而言是透明的,同時信息包完整無損地通過交換機網。
=====================、
yxr注:2008的文章,10年前的文章,彷佛很看好IB
從價格的角度,今天的Infiniband是萬兆以太網的幾分之一。Inifiniabnd有比FibreChannel高5倍的性能,在價格上則已與Fibre Channel在同一個數量級上。
存儲是內存的延伸,具備RDMA功能的Infiniband應該成爲存儲的主流協議。比較一下Infiniband和Fibre Channel咱們能夠看到Infiniband的性能是Fibre Channel的5倍,Infiniband交換機的延遲是Fibre Channel交換機的1/10。另外在構築鏈接全部服務器和存儲器的高速網絡時使用Infiniband Fabric能夠省去Fiber Channel Fabric,從而給客戶帶來巨大的成本節省。
今天在使用Infiniband做爲存儲協議方面已經有了很大的進展。做爲iSCSI RDMA的存儲協議iSER已被IETF標準化。
不一樣於Fibre Channel,Infiniband在存儲領域中能夠直接支持SAN和NAS。存儲系統已不能知足於傳統的Fibre Channel SAN所提供的服務器與裸存儲的網絡鏈接架構。Fibre Channel SAN加千兆以太網加NFS的架構已經嚴重限制了系統的性能。在這種狀況下應運而生的則是由在Infiniband fabric鏈接起來的服務器和iSER Infiniband存儲的基礎架構之上的並行文件系統(諸如HP的SFS、IBM的GPFS等等)。在將來的服務器、存儲器網絡的典型結構將會是由Infiniband將服務器和Infiniband存儲器直接鏈接起來,全部的IP數據網絡將會經過萬兆以太網到Infiniband的路由器直接進入Infiniband Fabric。
===========================================
http://weibo.com/p/1001603936363903889917?mod=zwenzhang
兩種以太網 RDMA 協議: iWARP 和 RoCE
====================
http://www.tomsitpro.com/articles/nvme-over-fabrics-qlogic-brocade,1-3064.html
2015的文章,彷佛爲了證實Fiber Channel仍然有市場。。。。
Fibre Channel Vs Ethernet Battle Continues As Brocade, QLogic Demo FC NVMe Over Fabrics
QLogic and Brocade are showing the first NVMe over Fabrics (NVMeF) demonstration utilizing Fibre Channel as the fabric (FC-NVMe) at the Gartner Data Center, Infrastructure and Operations Management Conference.
NVMeF is shaping up to be the leading protocol employed in future low-latency flash-based storage arrays. The NVMe consortium designed the original protocol to increase performance and scalability while simultaneously reducing latency and CPU overhead for in-chassis nonvolatile memories. It was not long before architects, enamored with the lightweight protocol, envisioned the possibilities of employing NVMe as an end-to-end fabric.
However, FC-NVMe may lead to a Fibre Channel resurgence if it can offer tangible benefits over competing RDMA over RoCE and InfiniBand implementations. There is no doubt that NVMeF is coming to the datacenter on an accelerated time frame - the only question is which interconnect will prove to be the most popular.
=========================