DPDK vhost库

原创翻译,转载请注明出处。

vhost库实现了一个用户空间的virtio net server,允许用户直接处理virtio ring队列。换句话说,它让用户可以从VM virtio网络设备读取或写入数据包,为了达到这个目的,vhost库应该可以:
1.访问客户虚拟机内存,对于QEMU,这个是通过设置 -objectmemory-backend-file,share=on,...选项。这意味着QEMU将会在客户虚拟机的内存里创建一个文件,share=on 选项允许其他进程访问这个文件,也就意味着能访问客户虚拟机内存。
2.知道vring所有必需的信息,如可用的ring存储在哪里,vhost定义了一些消息,通过Unix domain socket文件来通知后台所有的信息,这样就知道如何去处理这个vring了。

1. vhost API概述
rte_vhost_driver_register(path, flags) 这个函数主要是向系统注册vhost驱动,path 是指定Unix domain socket文件路径。
当前支持的flags有:
RTE_VHOST_USER_CLIENT DPDK 如果设置了这个值,vhost-user将会作为客户端,下面会有解释。
RTE_VHOST_USER_NO_RECONNECT 当DPDK vhost-user作为客户端的话,它会一直尝试重连服务端QEMU直到成功。这在下面2种情况下非常有用:
当QEMU还没有启动时
当QEMU重启时(比如客户操作重启了)
重连选项默认是开启的。然而,这个flag会让它关闭。
RTE_VHOST_USER_DEQUEUE_ZERO_COPY 如何设置了这个值,出队零拷贝选项会被开启。默认是关闭的。这有一些事实(包括限制)你需要知道当你要去设置这个值的时候:
    零拷贝对小数据包是不友好的(典型是报文长度小于512)。
    零拷贝在VM2VM的情况下是非常好的。比如在2个VM之间运行iperf,在开启了TSO的情况下,提升到70%以上。
    对于VM2NIC的情况,nb_tx_desc必须足够的小,如果virtio间接特性没开启小于等于64,如果开启了,小于等于128. 这是因为当出队零拷贝如果开启了的话,客户TX使用的vring,只有在对应的mbuf释放了才会更新。因此,nb_tx_desc必须是足够小,只有这样才能使PMD驱动及时的用完可用的Tx描述符和释放mbuf。否则,客户Tx vring会被饿死。
    客户内存基于巨页内存会获得更好的性能。1G大小是最好的。当出队零拷贝开启了,客户物理内存地址和主机物理地址的映射必须建立好。使用非巨页内存意味着非常多的页分段。为了简化处理,DPDK vhost使用了线性查找这些段,因此段越小,就能越快的获取到这个映射关系。温馨提示:将来会使用树查找来提速。

rte_vhost_driver_session_start() 这个函数启动vhost会话来轮询处理vhost消息。这是个无限循环,因此应该放到一个专用线程里来调用。

rte_vhost_driver_callback_register(virtio_net_device_ops) 这个函数注册一系列回调函数,使得DPDK应用程序在事件发生的时候调用合适的函数。当前支持如下事件:
new_device(int vid)
这个回调是在有一个virtio网络设备处于就绪的时候调用,vid是这个virtio设备ID。
destroy_device(int vid)
这个回调是在有一个virtio网络设备关闭(或者连接断开)的时候调用,vid是这个virtio设备ID。
vring_state_changed(int vid, uint16_t queue_id, int enable)
这个回调是当指定的队列状态变化的时候(比如开启或停止)调用。

rte_vhost_enqueue_burst(vid, queue_id, pkts, count) 发送(入队)count 个数量的数据包从主机到客户虚拟机。

rte_vhost_dequeue_burst(vid, queue_id, mbuf_pool, pkts, count) 从客户虚拟机接收(出队)count个数量的数据包,并存储在pkts上。

rte_vhost_feature_disable/rte_vhost_feature_enable(feature_mask)
这个函数关闭或开启一些特性。举个栗子,它能关闭可合并缓冲区和TSO特性,默认这2个是开启的。

2.vhost-user的实现
vhos-user通过Unix domian socket来传递消息。这意味着DPDK vhost-user的实现有2个选项:
DPDK vhost-user作为服务端
DPDK 会创建一个Unix domain socket服务文件并在它上面监听连接。
注意:这是默认模式,在DPDK 16.07之后唯一的模式
DPDK vhost-user作为客户端
不像服务端模式,这个模式不创建socket文件,它只是尝试去连接服务端。
当DPDK vhost-user应用程序重启了,DPDK vhost-user会尝试重新连接服务端。这就是reconnect特性是怎样工作的。

注意:
    重连特性要求QEMU 2.7版本及以上。
    vhost支持的特性必须在重启前后都完全一致。举个栗子,TSO关闭了然后开启,不会有任何作用并可能发生未知问题。
    
不管哪种模式,一旦连接建立了,DPDK vhost-user将会启动接收并处理来自QEMU的vhost消息。
对于文件描述符的消息,文件描述符可以直接在vhost进程里,当它已经通过 Unix domain socket安装了。
支持如下的vhost消息:
VHOST_SET_MEM_TABLE
VHOST_SET_VRING_KICK
VHOST_SET_VRING_CALL
VHOST_SET_LOG_FD
VHOST_SET_VRING_ERR

对于VHOST_SET_MEM_TABLE消息,QEMU会发送每一个内存区域的信息并且它的文件描述符在这个消息的辅助数据里。这个文件描述就是用来映射这块内存区域的。

VHOST_SET_VRING_KICK用来作为信号将vhost设备放入到数据平面,VHOST_GET_VRING_BASE作为信号去数据平面删除vhost设备。
当socket连接关闭时,vhost会删除这个设备。

3.vhost支持vSwitch参考手册
参考DPDK Sample Application Guide。

时间: 2024-08-09 21:50:51

DPDK vhost库的相关文章

DPDK之(八)——vhost库

转:http://www.cnblogs.com/danxi/p/6652725.html vhost库实现了一个用户空间的virtio net server,允许用户直接处理virtio ring队列.换句话说,它让用户可以从VM virtio网络设备读取或写入数据包,为了达到这个目的,vhost库应该可以: 访问客户虚拟机内存,对于QEMU,这个是通过设置 -objectmemory-backend-file,share=on,...选项.这意味着QEMU将会在客户虚拟机的内存里创建一个文件

DPDK架构与特点

当年在某公司实习的时候,当时老大给了我一份DPDK的文档,说是将来很有用,熟悉DPDK对能力提高也有帮助,就试着翻译了 <Intel DPDK Getting Started Guide>和半个<Intel DPDK Programmers Guide>,后来忙着论文就没再搞了.现在,发现 pf_ring的统计虚高了,只好重新拥抱DPDK了. DPDK的代码量还是很庞大的,分析代码之前理清库里面的各个部分的关系很有必要,下面的一张图很好的表现了各部分关系. 先介绍DPDK中的几个缩

DPDK转发

一.网络IO的处境和趋势 从我们用户的使用就可以感受到网速一直在提升,而网络技术的发展也从1GE/10GE/25GE/40GE/100GE的演变,从中可以得出单机的网络IO能力必须跟上时代的发展. 1. 传统的电信领域 IP层及以下,例如路由器.交换机.防火墙.基站等设备都是采用硬件解决方案.基于专用网络处理器(NP),有基于FPGA,更有基于ASIC的.但是基于硬件的劣势非常明显,发生Bug不易修复,不易调试维护,并且网络技术一直在发展,例如2G/3G/4G/5G等移动技术的革新,这些属于业务

DPDK17.02入门手册

Linux环境下DPDK入门 Release 17.02.0 目录 Linux环境下DPDK入门... 1 1       引言... 2 2       资料集... 2 3       系统需求... 2 3.1        x86平台的先决条件BIOS设置... 2 3.2        编译DPDK. 3 3.3        运行DPDK程序... 3 4       编译DPDK源码... 5 4.1        安装DPDK和浏览源码... 5 4.2        安装DPD

share memory between guest and nic

通过硬件的IOMMU,内核提供的共享内存.VFIO可以实现. REF: 1. offical DPDK API Doc, 简书有翻译版 DPDK编程指南(翻译)(一)  (二十七) 2. dpdk vhost研究(一)/(二) 3. vhost-user 与其他的对比 virtio,vhost 和vhost-user 文件共享 Linux文件共享(六)——描述符传递 qemu 与DPDK共享内存,是通过传递fd(fd是进程独享的,同一文件,两个进程间的fd可能不同)的方式实现的.所以实现fd传输

spdk dpdk编译动态库( shared library )

1,dpdk编译共享库 默认情况下都编译出静态库,如果想编译出动态库,把config/common_base文件中的CONFIG_RTE_BUILD_SHARED_LIB改成y即可. 2,spdk编译共享库 修改mk/spdk.common.mk: # Archive $(OBJS) into [email protected] (.so) # Archive $(OBJS) into [email protected] (.a) # LIB_C=\ #       $(Q)echo "  LI

DPDK编译成动态库,应用程序检测不到端口的问题

把DPDK由静态库方式改为编译成动态库后,原本正常的应用程序就不能运行了. 在初始化的时候,rte_eth_dev_count()总是返回0,而用dpdk_nic_bind.py --status查看端口是绑定成功的. DPDK默认是编译成静态库的,改成动态库只需要把common_linuxapp文件中CONFIG_RTE_BUILD_SHARED_LIB=n修改成CONFIG_RTE_BUILD_SHARED_LIB=y就行了. DPDK编译成动态库后,PMD的各个驱动就单独编译成了一个个的.

ovs+dpdk numa感知特性验证

0.介绍 本测试是为了验证这篇文章中提到的DPDK的NUMA感知特性. 简单来说,在ovs+dpdk+qemu的环境中,一个虚拟机牵涉到的内存共有三部分: DPDK为vHost User设备分配的Device tracking memory OVS为网络通信分配的mbufs QEMU为虚拟机分配的内存 未开启DPDK的NUMA感知特性时,所有Device tracking memory都会使用同一个NUMA节点中的内存,如果这时QEMU为两台虚拟机分配的内存刚好在两个不同的NUMA节点上,那么机

rabbitMQ实战(一)---------使用pika库实现hello world

rabbitMQ实战(一)---------使用pika库实现hello world 2016-05-18 23:29 本站整理 浏览(267) pika是RabbitMQ团队编写的官方Python AMQP库.需要先安装pika:pip3 install pika有较详细的注释,就不再详细说明了生产者代码:hello_world_producer.py: import pika,sys #connect to the rabbitmq,use the default vhost credent