Vxlan与网卡offload性能

背景

由于数据链路层MTU的限制，发送端TCP/UDP数据在交付到IP层时需要与MTU相匹配，TCP数据不能超过mss，较长的UDP需要分片（Fragmentation）以满足MTU要求；接收端协议栈也是从网卡接收上述不超过MTU的小帧并重组，早期上述数据分片和组合的工作均由CPU完成，导致占用CPU资源且效率不高。

offload 是将本来该操作系统进行的一些数据包处理（如分片、重组等）放到网卡硬件中去做，降低系统 CPU 消耗的同时提高处理的性能。

解释

发送模式

TSO （tcp-segmentation-offload）

从名字来看很直观，就是把tcp分段的过程转移到网卡中进行。当网卡支持TSO机制时，可以直接把不超过滑动窗口大小的payload下传给协议栈，即使数据长度大于MSS，也不会在TCP层进行分段，同样也不会进行IP分片，而是直接传送给网卡驱动，由网卡驱动进行tcp分段操作，并执行checksum 计算和包头、帧头的生成工作。

UFO（udp-fragmentation-offload）

是一种专门针对udp协议的特性，主要机制就是将IP分片的过程转移到网卡中进行，用户层可以发送任意大小的udp数据包（udp数据包总长度最大不超过64k），而不需要协议栈进行任何分片操作。目前貌似没找到有支持UFO机制的网卡，主要是应用在虚拟化设备上。

GSO（generic-segmentation-offload）

相对于TSO和UFO，GSO机制是针对所有协议设计的，更为通用。同时，与TSO、UFO不同的是，GSO主要依靠软件的方式实现，对于网卡硬件没有过多的要求。其基本思想就是把数据分片的操作尽可能的向底层推迟直到数据发送给网卡驱动之前，并先检查网卡是否支持TSO或UFO机制，如果支持就直接把数据发送给网卡，否则的话再进行分片后发送给网卡，以此来保证最少次数的协议栈处理，提高数据传输和处理的效率。

接收模式

LRO/GRO（large-receive-offload）

在网卡驱动层面上将接受到的多个TCP数据包聚合成一个大的数据包，然后上传给协议栈处理。这样可以减少协议栈处理的开销，提高系统接收TCP数据的能力和效率。

generic-receive-offload，基本思想和LRO类似，只是改善了LRO的一些缺点，比LRO更加通用。目前及后续的网卡都采用GRO机制，不再使用LRO机制。

操作

在Linux中输入如下命令可查看网卡的offload特性状态：

ethtool –k eth0

Features for eth0:

rx-checksumming: on

tx-checksumming: on

tx-checksum-ipv4: on

tx-checksum-ip-generic: off [fixed]

tx-checksum-ipv6: on

tx-checksum-fcoe-crc: on [fixed]

tx-checksum-sctp: on

scatter-gather: on

tx-scatter-gather: on

tx-scatter-gather-fraglist: off [fixed]

tcp-segmentation-offload: on

tx-tcp-segmentation: on

tx-tcp-ecn-segmentation: off [fixed]

tx-tcp6-segmentation: on

udp-fragmentation-offload: off [fixed]

generic-segmentation-offload: on

generic-receive-offload: on

large-receive-offload: off

rx-vlan-offload: on

tx-vlan-offload: on

ntuple-filters: off

receive-hashing: on

highdma: on [fixed]

rx-vlan-filter: on [fixed]

vlan-challenged: off [fixed]

tx-lockless: off [fixed]

netns-local: off [fixed]

tx-gso-robust: off [fixed]

tx-fcoe-segmentation: on [fixed]

tx-gre-segmentation: off [fixed]

tx-ipip-segmentation: off [fixed]

tx-sit-segmentation: off [fixed]

tx-udp_tnl-segmentation: on

tx-mpls-segmentation: off [fixed]

fcoe-mtu: off [fixed]

tx-nocache-copy: off

loopback: off [fixed]

rx-fcs: off [fixed]

rx-all: off [fixed]

tx-vlan-stag-hw-insert: off [fixed]

rx-vlan-stag-hw-parse: off [fixed]

rx-vlan-stag-filter: off [fixed]

busy-poll: on [fixed]

可以通过如下命令修改部分属性

ethtool -K eth1 gso on //开启gso

ethtool -K eth1 tso off //关闭tso

ethtool -K eth1 gro off //关闭gro

测试

关闭/关闭GRO，测试接收端性能。MTU=1400，使用netperf发送TCP数据，开启GRO带宽比关闭要高3倍。

开启/关闭GSO，测试发送端性能。MTU=1400，使用netperf发送TCP数据，开启GSO比关闭GSO相比CPU降低很多。

对Vxlan的支持

虽然用户使用TCP进行通信，但是由于Vxlan的机制在数据帧之前增加了UPD的封装，导致到达网卡的数据包实际为UDP报文。

支持Vxlan的网卡可以对Vxlan报文进行offload的支持，若应用数据为TCP，依然可以在接收端实现GRO。

https://software.intel.com/en-us/blogs/2015/01/29/optimizing-the-virtual-networks-with-vxlan-overlay-offloading

时间： 2024-11-03 22:08:19

Vxlan与网卡offload性能

Vxlan与网卡offload性能的相关文章

网络数据包分析网卡Offload

[daily][dpdk] 网卡offload识别包类型；如何模拟环境构造一个vlan包

虚拟网卡性能压测

x86服务器中网络性能分析与调优转

Neutron 理解（14）：Neutron ML2 + Linux bridge + VxLAN 组网

UCloud基于OpenvSwitch卸载的高性能25G智能网卡实践

Linux下多网卡时，如何快速辨别网卡ID与物理网卡的对应关系(即ethtool命令)

iperf对10Gb, 40Gb, 56Gb的网卡的性能测试

成人网站性能提升 20 倍之经验谈 [Python]