怎麼提高網絡應用性能?讓DPDK GRO和GSO來幫你!

背景

目前,有大量的網絡應用在處理數據包的時候只需要處理數據包頭,而不會操作數據負載部分,例如防火牆、TCP/IP協議棧和軟件交換機。對這類網絡應用而言, 包頭處理產生的開銷(稱爲「per-packet overhead」)佔了整體開銷的大部分。因此,如何減少包頭處理開銷是優化這類應用性能的關鍵。

減少包頭處理開銷最直接的方法:減少數據包數量

如何減少包數量?

  • 增大Maximum Transmission Unit (MTU)。在數據量一定的情況下,使用大MTU的數據包可攜帶更多數據,從而減少了包的總量。但MTU值依賴於物理鏈路,我們無法保證數據包經過的所有鏈路均使用大MTU。

  • 利用網卡特性:Large Receive Offload (LRO),UDP Fragmentation Offload (UFO)和TCP Segmentation Offload (TSO)。如圖1所示,LRO將從物理鏈路收到的TCP包(如1500B)合併爲長度更長的TCP包(如64KB);UFO和TSO將上層應用發送的長數據負載的UDP和TCP包(如64KB)拆分成長度更短的數據包(如1500B),以滿足物理鏈路的MTU限制。通過在網卡上進行包合併和拆分,在不需要任何CPU開銷的情況下,上層應用就可以處理數量大大減少的大包。然而,LRO、TSO和UFO通常只能處理TCP和UDP包,而且並非所有的網卡都支持這些特性。

  • 軟件包合併 (Generic Receive Offload,GRO)和包拆分 (Generic Segmentation Offload,GSO)。與前兩種方法相比,GRO和GSO有兩個優點:第一,不依賴於物理鏈路和網卡;第二,能夠支持更多的協議類型,如VxLAN和GRE。

圖1. LRO、UFO和TSO工作原理

爲了幫助基於DPDK的應用程序(如Open vSwitch)減少包頭處理開銷,DPDK分別於17.08和17.11支持了GRO和GSO。如圖2所示, GRO和GSO是DPDK中的兩個用戶庫,應用程序直接調用它們進行包合併和分片。

圖2. DPDK GRO和DPDK GSO

1

GRO庫和GSO庫結構

圖3描繪了GRO庫和GSO庫的結構。根據數據包類型,GRO庫定義了不同的GRO類型。每一種GRO類型負責合併一種類型的數據包,如TCP/IPv4 GRO處理TCP/IPv4數據包。同樣的,GSO庫也定義了不同的GSO類型。GRO庫和GSO庫分別根據MBUF的packet_type域和ol_flags域將輸入的數據包交給對應的GRO和GSO類型處理。

圖3. GRO庫和GSO庫的框架

2

如何使用GRO庫和GSO庫?

使用GRO和GSO庫十分簡單。如圖4所示,只需要調用一個函數便可以對包進行合併和分片。

圖4. 代碼示例

爲了支持不同的用戶場景,GRO庫提供了兩組API:輕量模式API和重量模式API,如圖5所示。輕量模式API應用於需要快速合併少量數據包的場景,而重量模式API則用於需要細粒度地控制合包並需要合併大量數據包的場景。

圖5. 輕量模式API和重量模式API

3

DPDK GRO的合包算法

算法挑戰

  • 在高速的網絡環境下,高開銷的合包算法很可能會導致網卡丟包。

  • 包亂序(「Packet Reordering」)增加了合包難度。例如Linux GRO無法合併亂序的數據包。

這就要求DPDK GRO的合包算法:

  • 足夠輕量以適應高速的網絡環境

  • 能夠合併亂序包

基於Key的合包算法

爲解決上述兩點挑戰,DPDK GRO採用基於Key的合包算法,其流程如圖6所示。對新到的數據包,首先按照流(「flow」)對其進行分類,再在其所在的流中尋找相鄰的數據包(「neighbor」)進行合併。若無法找到匹配的流,就插入一條新流並將數據包存儲到新流中。若無法找到鄰居,則將數據包存儲到對應的流中。

基於Key的合包算法有兩個特點。首先,通過流分類來加速數據包的合併是十分輕量的一種做法;其次,保存無法合併的數據包(如亂序包)使得之後對其進行合併成爲可能,故減輕了包亂序對合包帶來的影響。

圖6. 基於Key的合包算法流程

例如,TCP/IPv4 GRO使用源和目的Ethernet地址、IP地址、TCP端口號以及TCP Acknowledge Number定義流,使用TCP Sequence Number和IP ID決定TCP/IPv4包是否爲鄰居。若兩個TCP/IPv4的數據包能夠合併,則它們必須屬於同一個流,並且TCP序號和IP ID必須連續。

4

DPDK GSO的分片策略

  • 分片流程

    如圖7所示,將一個數據包分片有3個步驟。首先,將包的數據負載分成許多長度更小的部分;其次,爲每一個數據負載部分添加包頭(新形成的數據包稱爲GSO Segment);最後,爲每個GSO segment更新包頭(如TCP Sequence Number)。

圖7. GSO分片流程

  • GSO Segment的結構

    生成一個GSO Segment的最簡單方法就是拷貝包頭和數據負載部分。但頻繁的數據拷貝會降低GSO性能,因此,DPDK GSO採用了一種基於零拷貝的數據結構——Two-part MBUF——來組織GSO Segment。如圖8所示,一個Two-part MBUF由一個Direct MBUF和多個Indirect MBUF組成。Direct MBUF用來存儲包頭,Indirect MBUF則類似於指針,指向數據負載部分。利用Two-part MBUF,生成一個GSO Segment僅需拷貝長度較短的包頭,而不需要拷貝較長的數據負載部分。

圖8. Two-part MBUF的結構

GRO庫和GSO庫的狀態

目前,GRO庫還處於一個初期階段,僅對使用最廣泛的TCP/IPv4數據包提供了合包支持。GSO庫則支持更豐富的包類型,包括TCP/IPv4、VxLAN和GRE。

作者簡介

胡嘉瑜,畢業於中國科學技術大學,現爲英特爾軟件工程師,主要從事DPDK中GRO、GSO和虛擬化方向的研發。