RoCE vs iWARP

两种以太网 RDMA 协议: iWARP 和 RoCE

转载 2017年03月08日 16:10:09

  • 1510

http://weibo.com/p/1001603936363903889917?mod=zwenzhang

本文是讲演 How Ethernet RDMA Protocols iWARP and RoCE Support NVMe over Fabrics【1】的摘要。

如果 NVMe 存储系统与主机是分离的,显然需要某种 fabric 把它们连接,这样主机才能使用存储系统。目前,支持远程连接的 fabric 包括:

  • RDMA 协议:底层可以是以太网( RoCE 或者 iWARP )或者 Infiniband
  • Fibre Channel 协议:底层可以是 FC 网络或者以太网(FCoE)

一、为什么需要 RDMA ?

RDMA (Remote Direct Memory Access) 是一种绕过主机 (host-offload/host-bypass) 技术:一个应用(包括存储)<--发送/接收数据-->另外一个(远程)应用的内存空间。

  • Source Application <-- (发送/接收、完成)队列 --> 带 RDMA 功能的网卡 <-- 可靠的网络连接 --> 带RDMA 功能的网卡 <-- (发送/接收、完成)队列 --> Target Application

 由上图可知,应用程序可以从一台(物理的或者虚拟的)机器直接传送数据到另外一台机器,这既提高了带宽又降低了延迟、抖动和 CPU 消耗。

各种操作系统支持 RDMA :

  • Windows Server: 从 Windows HPC Server 2008 开始支持 Network Direct userspace API ;从 Windows Server 2012 开始支持 Network Direct kernel API
  • Linux: 从2004年开始,由 OpenFabrics Alliance 提供 userspace/kernel API , RHEL 和 SLES 已经自带, Ubuntu 要自己安装?
  • FreeBSD 9.0+ 支持 OpenFabrics Alliance userspace/kernel API

具体来说, RDMA 技术特性带来的好处如下图所示:

  NVMe 设备延迟很低,这就要求网络延迟也必须很低, RDMA 正好满足这一点。

二、用 RDMA 发送 NVMe 写命令

 以一个 NVMe 写操作为例。 NVMe 主机驱动把写命令及数据(从 NVMe 提交队列取出一项)封装一个与底层传输无关的命令胶囊(capsule);胶囊被放到主机 RDMA 网卡的发送队列中,由 RDMA_SEND 发送出去;目标主机的 RDMA 网卡在接收队列中收到这个胶囊,解除封装,把 NVMe 命令及数据放到目标主机的内存中;目标主机处理 NVMe 命令及数据;完成后,目标主机封装一个 NVMe 命令完成项,由 RDMA 传输到源主机。

三、两种基于以太网的 RDMA 协议

第一种:以太网->IP->UDP->RoCE (RDMA over Converged Ethernet) v2

第二种:以太网->IP->TCP(去掉 TCP/IP 流量控制和管理)->iWARP

不同协议的网卡之间并不兼容,也就说支持 RoCE 协议的网卡不能与支持 iWARP 协议的网卡交换数据。

两种协议的供应商上台系统不一样,

 对底层网络基础设施的要求也不一样:

 了解更多细节,

【1】How Ethernet RDMA Protocols iWARP and RoCE Support NVMe over Fabrics https://www.brighttalk.com/webcast/663/185909

原文地址:https://www.cnblogs.com/zafu/p/8335192.html

时间: 2024-11-06 07:27:04

RoCE vs iWARP的相关文章

[转帖]两种以太网 RDMA 协议: iWARP 和 RoCE

两种以太网 RDMA 协议: iWARP 和 RoCE https://weibo.com/p/1001603936363903889917?mod=zwenzhang 写的挺好的呢. 本文是讲演 How Ethernet RDMA Protocols iWARP and RoCE Support NVMe over Fabrics[1]的摘要. 如果 NVMe 存储系统与主机是分离的,显然需要某种 fabric 把它们连接,这样主机才能使用存储系统.目前,支持远程连接的 fabric 包括:

[转帖]InfiniBand, RDMA, iWARP, RoCE , CNA, FCoE, TOE, RDMA, iWARP, iSCSI等概念

InfiniBand, RDMA, iWARP, RoCE , CNA, FCoE, TOE, RDMA, iWARP, iSCSI等概念 2017-12-15 15:37:00 jhzh951753 阅读数 1358更多 分类专栏: 存储 版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/jhzh951753/article/details/78813666 核心基础概念 FCoE:以太网

NVMe over Fabrics又让RDMA技术火了一把

RDMA是个什么鬼?相信大部分不关心高性能网络的童鞋都不太了解.但是NVMe over Fabrics的出现让搞存储的不得不抽出时间来看看这个东西,这篇文章就来介绍下我所了解的RDMA. RDMA(Remote Direct Memory Access)意为在远端直接访问主机的内存,而不需要主机参与.如下图,当主机和Client端都配备RDMA NIC的时候,数据通过NIC的DMA引擎直接在两端内存之间转移,而不需要经过OS的网络协议栈.这种技术对于局域网高带宽的存储系统非常有吸引力. 网络技术

fio2.1.10--HOWTO

Table of contents ----------------- 1. Overview 2. How fio works 3. Running fio 4. Job file format 5. Detailed list of parameters 6. Normal output 7. Terse output 8. Trace file format 9. CPU idleness profiling 1.0 Overview and history ---------------

【转】FIO使用指南

原文地址:http://blog.csdn.net/yuesichiu/article/details/8722417 这个文档是对fio-2.0.9 HOWTO文档的翻译,fio的参数太多了,翻译这个文档时并没有测试每一个参数的功能和使用方法,只有少量参数做了试验,大部分的参数采用的是根据字面翻译或是个人理解的翻译,必然有些出入,先发出来,以后有使用的时候再被充和修改.在另一个文档中会对fio自带的实例进行分析,可能会更为清晰一些. fio这个工具实在太强大了,列举一下他的NB之处吧 1)支持

linux使用FIO测试磁盘的iops

FIO是测试IOPS的非常好的工具,用来对硬件进行压力测试和验证,支持13种不同的I/O引擎,包括:sync,mmap, libaio, posixaio, SG v3, splice, null, network, syslet, guasi, solarisaio 等等.fio 官网地址:http://freshmeat.net/projects/fio/ 一,FIO安装wget http://brick.kernel.dk/snaps/fio-2.2.5.tar.gz yum instal

[精华] RDMA技术原理分析、主流实现对比和解析

替换高清大图 请点击此处输入图片描述  摘要: 远程直接内存访问(即Remote Direct Memory Access)是一种直接内存访问技术,它将数据直接从一台计算机的内存传输到另一台计算机,无需双方操作系统的介入,本文旨在技术引导,详细内容请通过文末"阅读原文"参阅<RDMA原理分析.对比和技术实现解析>电子书. RDMA技术最早出现在Infiniband网络,用于HPC高性能计算集群的互联.传统的基于Socket套接字(TCP/IP协议栈)的网络通信,需要经过操作

详谈NVMe和NVMe-oF基础架构新西兰45秒彩数据采集地址和概念

NVMe传输是一种抽象协议层,旨在提供新西兰45秒彩数据采集地址vip7.maltapi.com可靠的NVMe命令和数据传输.为了支持数据中心的网络存储,通过NVMe over Fabric实现NVMe标准在PCIe总线上的扩展,以此来挑战SCSI在SAN中的统治地位.NVMe over Fabric支持把NVMe映射到多个Fabrics传输选项,主要包括FC.InfiniBand.RoCE v2.iWARP和TCP. 然而,在这些Fabrics选项协议中,我们常常认为InfiniBand.Ro

40G成本高,10G不够用怎么办?

随着科技的突飞猛进,互联网本身也在发生翻天覆地的变化.从视频直播,到Web性能.云安全,再到4K.VR--各种新兴应用对互联网流量的需求一直在飞速攀升.而大部分的数据中心无论是服务器还是网络都依然运行在1G或10G的以太网上,必须要对现有数据中心进行优化或重建,尤其是数据中心网络的重建.40G成本高,10G不够用的问题,那么究竟多少带宽才是最佳方案??? 虽然我们可以通过聚合四个10GbE物理通道来实现40G,或聚合10个10GbE通道以运行100G速度,但这些解决方案相比25G更昂贵而且功耗更