桔妹導讀:隨着雲規模不斷擴大以及業務層面對延遲、帶寬的要求愈來愈高,採用DPDK 加速網絡報文處理的方式在橫向縱向擴展都出現了局限性。可編程芯片成爲業界熱點。本文主要講述了可編程網卡芯片在滴滴雲網絡中的應用實踐,遇到的問題、帶來的收益以及開源社區貢獻。linux
隨着滴滴雲規模的不斷擴大,業務層面對延遲以及帶寬的要求愈來愈高。2018年滴滴雲網絡團隊上線了基於開源社區的OVS-DPDK方案。DPDK是X86平臺報文快速處理的庫和驅動的集合, 其主要優點爲經過Bypass Linux內核,Hugepage內存以及PMD(Poll Mode Driver)模型驅動的方式實現加速。咱們爲OVS-DPDK提供了在線熱升級功能,該功能保證了在升級過程當中虛擬機業務無感知,而且網絡Downtime時間爲毫秒級別。同時咱們優化了OVS-DPDK數據轉發平面。實現了不一樣物理主機上的虛擬機網絡延遲<150us,單核性能約~400w pps(雙向)。git
滴滴內部上雲、高性能計算HPC,以及機器學習,對網絡提出了更高的要求。經過CPU DPDK處理報文的方式,雖然在性能以及延遲方面遠優於基於Linux 內核的轉發實現。但CPU DPDK已經不能知足數據中心流量激增帶來的需求。github
雲網絡環境中,在計算節點DPDK不會佔用過多的CPU,不然會影響CPU售賣,通常會使用1-2 CPU用於數據報文處理。同時DPDK 處理數據報文的性能強依賴CPU算力。所以在計算節點網絡的橫向擴展以及縱向擴展都具備侷限性。編程
在邊際網關節點,咱們能夠經過擴展服務器的方式,提升網絡處理容量進而知足業務需求。可是大規模的擴展服務器,須要承擔更多的機器、功耗以及運維成本。安全
軟件定義網絡(Software Defined Network,SDN)是一種新型網絡創新架構,是網絡虛擬化的一種實現方式。其核心思想是將網絡設備的控制面與數據面分離開來。控制層面能夠經過集中控制的方式實現不一樣的業務邏輯:拓撲發現,路由管理,安全策略,網絡虛擬化等。數據平面更專一在數據報文轉發。2018年AWS re:Invent,AWS 介紹了Nitro System。該系統經過硬件芯片加速虛擬機IO處理(網絡、存儲、安全等)。性能優化
目前工業界,加速網絡處理的焦點彙集到了硬件層面:AISC,FPGA,P4,可編程網卡,以及智能網卡等。服務器
傳統AISC卡
該卡比較成熟,但業務邏輯固定,很難適應雲上覆雜的業務場景。網絡
可編程門隊列FPGA
FPGA 實現網絡加速須要專業FPGA技術人員,以及專業網絡RD。同時在成本,和研發週期都須要具備必定的侷限性。架構
P4
P4 具備靈活的可編程性,較爲合適作爲網關節點數據處理。並不適合在計算節點使用。同時價格也是須要考慮的因素。
併發
可編程網卡芯片
經過調研發現,可編程網卡除了具備通用網卡的功能外,還能夠經過下發流表規則的方式,實現報文匹配並對報文執行特定的action如:修改,封裝,以及轉發、上送報文至CPU等。這種具備靈活性、可編程性的硬件芯片,可以知足快速迭代的需求。
爲了知足網元業務靈活性、多樣性的需求,咱們將網元業務和底層平臺功能分離,捨去了傳統的數據面Pipeline轉發模型,採用了相似Open Flow的macth+action的方式。這樣不一樣的match規則和不一樣action 匹配可以實現不一樣的業務邏輯。這種弱依賴的關係可以剝離了業務和底層細節,方便業務功能迭代、快速上線,同時底層可編程芯片的更新不會對業務邏輯產生影響。
隨着雲上業務場景的複雜化,以及上雲的客戶愈來愈多,雲上網絡的功能也複雜化。爲了統一計算節點以及網關節點功能,咱們實現了統一的編程框架。這樣可以快速開發不一樣功能的網關節點,減小運維負擔。
咱們基於OVS-DPDK Offload 框架實現流表規則offload。OVS 採用首個報文觸發的方式下發硬件流表規則,該方式的優勢爲在必須的時候下發規則,可以達到節省流表的目的,可是缺點卻會致使首個報文延遲。經調研咱們發現網卡支持至少百萬級流表量(使用x86內存或者其餘擴展內存),最終咱們捨去OVS-DPDK ofproto 轉發層,使用dpctl 接口下發流表,這樣就不存在首個報文延遲問題,同時也縮減了使用TC Flower時數據面過多問題(這些轉發平面包括:硬件芯片轉發,TC數據面,OVS Linux 內核模塊轉發,以及ofproto層)。咱們修改了OVS-DPDK 流表老化方式,保證經過dpctl 下發的規則不會被刪除。最後經過upcall limit 限制了upcall 報文處理。滴滴雲網絡數據平面主要分爲兩大部分:計算節點和網關節點。計算節點主要負責虛擬機、容器網絡的虛擬化,網關節點主要負責各類邊際節點業務如:SLB負載均衡、vRouter EIP報文處理,分流器、SNAT、FullNAT、雲企業網等。可編程網卡芯片經過平臺化的方式在兩個主要節點均有應用。
SLB負載均衡
提供四層負載均衡,根據用戶策略將underlayer網絡報文分發到虛擬網絡服務節點。
vRouter
提供彈性EIP服務。用戶能夠將一個公網IP地址綁定到虛擬機、容器、或者裸金屬,從而得到公網訪問功能。
iRouter
將滴滴數據中心和滴滴雲虛擬網絡打通,滴滴數據中心能夠方便快捷的訪問雲上資源。
SNAT
爲虛擬機、容器以及裸金屬提供訪問公網服務。
雲企業網互聯
互聯服務支持將滴滴雲上的多個VPC網絡加入雲互聯,任意兩個VPC網絡便可實現資源之間的互訪。
計算節點
在計算節點主要有兩大應用場景:一種場景爲在計算節點爲虛擬機、容器提供VPC服務(網絡隧道,限速,轉發,報文修改,公網服務),RDMA網絡。另一個場景使用智能網卡爲裸金屬提供VPC服務。
在調研開發過程當中遇到諸多問題,在這裏和你們總結分享下:
OVS-DPDK 支持Offload 程度有限
首先OVS 社區並對DPDK Offload接口(rte flow)支持有限:實現的action很是有限。須要使用者獨立完成開發:如set action,meter offload,vxlan 隧道報文處理等。
端口轉發限制
目前mellanox網卡芯片並不支持從一個PF端口轉發到該芯片另外一個端口, 最終咱們經過SRIOV+Hairpin的方式解決該問題。據瞭解後續的網卡芯片開始支持該功能(功能也受限於固件)。
Open vSwitch Crash
在刪除包含meter action 流表規則時,OVS 進程退出。該問題最終確認爲DPDK的一個bug,目前該問題已經修復,發送到社區並接收。http://git.dpdk.org/next/dpdk-next-net/commit/?id=0d7d180a0dda4b97021fc1f580d6bfe3b42a332d
調用DPDK Meter API 接口致使crash。目前該問題已經修復,發送到社區並接收。
http://git.dpdk.org/next/dpdk-next-net/commit/?id=4f19f4140e058c92822f228dcdc55c44bd88b613
修改OVS 配置致使刪除offload flow crash,目前該問題已經修復,發送到社區並接收。https://github.com/openvswitch/ovs/commit/058b80d3de31b2c539d9e6f5f6687bde78ef08e9
Meter offload
OVS社區沒有實現該功能,咱們根據業務特徵抽象出接口並在OVS實現了meter offload。該系 列補丁文件正在OVS 社區review,不久會進入upstream。
Decap/Encap 流表限制
下發多條帶有decap/encap的流表規則時報錯。該問題最終確認爲DPDK的一個bug,目前該問題已經修復,與社區maintainer 協同修復。http://git.dpdk.org/next/dpdk-next-net/commit/?id=64927f72a72fad39898b084e0cf66cc97b40959f
Decap + Meter action限制
decap + meter 作爲action 下發規則時失敗。該問題最終確認爲DPDK的一個bug,目前該問題已經修復,與社區maintainer 協同修復http://git.dpdk.org/next/dpdk-next-net/commit/?id=431f199883e5b7eeea87a2f9f0272daf3354c1da
Hairpin 性能問題
在高併發狀況下,mellanox 網卡芯片性能會降低約40%,最終確認是網卡驅動hairpin問題。目前mellanox 確認該問題並給出修復方式。
流表數目限制
經過刪除流表上限修復該問題:https://github.com/openvswitch/ovs/commit/df5c293642cc07013e796e588eb7aead917e20a1
MAC 地址對VxLAN的影響
物理主機源MAC地址變動後vxlan 報文依舊使用原來MAC地址,這樣會致使收不到響應報文:
https://git.kernel.org/pub/scm/linux/kernel/git/netdev/net-next.git/commit/?id=6707f74be8621ae067d2cf1c4485900e2742c20f
屢次修改報文不生效問題
屢次使用TC Flower pedit 修改報文,offload 不生效問題, 最終確認是內核驅動問題:
https://git.kernel.org/pub/scm/linux/kernel/git/netdev/net-next.git/commit/?id=218d05ce326f9e1b40a56085431fa1068b43d5d9
配置vf rate、mac不當致使內核crash
https://git.kernel.org/pub/scm/linux/kernel/git/netdev/net-next.git/commit/?id=6e77c413e8e73d0f36b5358b601389d75ec4451c
https://git.kernel.org/pub/scm/linux/kernel/git/netdev/net-next.git/commit/? id=24319258660a84dd77f4be026a55b10a12524919
以實現的vRouter 彈性公網網關爲例(基礎網絡10Gpbs):
pps(64B) | Mpbs(64B) | pps(1500B) | Mpbs(1500B) |
---|---|---|---|
9495892 | 8660.25 | 811935 | 10067.98 |
業務延遲數據以下(使用pktgen-dpdk latency):
背景流量 | 網關延遲 |
---|---|
10W條流表以及併發1Gbps 64B流量 | 3u |
10W條流表以及併發5Gbps 64B流量 | 6u |
除了爲開源社區提供 bug patch,咱們也將新增特性、性能優化patch回饋至開源社區:OVS、DPDK、Linux 內核社區(約80+ patch), 其中Linux 內核補丁列表以下:
團隊介紹
滴滴雲平臺事業羣滴滴SDN網絡團隊負責雲網絡產品的規劃、設計、以及研發等工做。爲公有云提供負載均衡SLB、專有網絡VPC、彈性公網EIP、SNAT 以及雲互聯等服務。團隊針對雲網絡業務需求,在Linux 內核網絡虛擬化、DPDK、OVS、可編程芯片、RDMA、智能網卡以及系統優化等領域均有普遍深刻的研究。團隊具備多名開源社區contributor,涉及OVS、DPDK、Linux 內核等。
做者介紹
專一於高性能網絡技術,從事雲網絡研發工做。活躍於Linux 內核、OVS、DPDK開源社區。
延伸閱讀
內容編輯 | Charlotte & Teeo
聯繫咱們 | DiDiTech@didiglobal.com
本文由博客羣發一文多發等運營工具平臺 OpenWrite 發佈