一文读懂RoCE,基于以太网的RDMA

扫码关注笔者公众号linux网络虚拟化获取更多资料

RoCE全称RDMA over Converged Ethernet,从字面来看,也就是基于融合以太网的RDMA,所以在了解RoCE之前还得先认识下RDMA这项技术。

什么是RDMA?

RDMA(Remote Direct Memory Access),全称远端内存直接访问技术,可以在极少占用CPU的情况下,把数据从一台服务器传输到另一台服务器,或从存储到服务器。

传统应用要发送数据,‍‍需要通过OS封装TCP/IP,‍‍然后依次经过主缓存、网卡缓存,‍‍再发出去。‍‍这样会导致两个限制。

限制一:TCP/IP协议栈处理会带来数10微秒的时延。‍‍TCP协议栈在接收发送报文时,‍‍内核需要做多次上下文的切换,‍‍每次切换需要耗费5-10微秒。‍另外还需要至少三次的数据拷贝‍‍和依赖CPU进行协议工作,‍‍这导致仅仅协议上处理就会带来数10微秒的‍‍固定时延,‍‍协议栈时延成为最明显的瓶颈。‍‍

限制二:TCP协议栈处理导致服务器CPU负载‍‍居高不下。‍‍除了固定时延较长的问题,TCP/IP网络需要主机CPU‍‍多次参与协议的内存拷贝,‍‍网络规模越大,‍‍网络带宽越高,‍‍CPU在收发数据时的调度负担越大,‍‍导致CPU持续高负载。‍‍

在数据中心内部,超大规模分布式计算存储资源之间,如果使用传统的TCP/IP进行网络互连,将占用系统大量的计算资源,造成IO瓶颈,无法满足更高吞吐,更低时延的网络需求。

RDMA是一种高带宽、低延迟、低CPU消耗的网络互联技术,克服了传统TCP/IP网络的许多困难。

主要体现
Remote(远程):数据在网络中的两个节点之间传输。
Direct(直接):不需要内核参与,传输的所有处理都卸载到NIC硬件中完成。
Memory(内存):数据直接在两个节点的应用程序的虚拟内存间传输;不需要额外的复制和缓存。
Access(访问):访问操作有send/receive、read/write等。

如何理解RDMA和TCP技术的区别?

借用某个技术大牛举的一个例子:

传统的TCP/IP方式就像是人工收费一样,需要取卡,人工核实,手动缴费,找零钱等等才能完成汽车上下高速。在车辆很多的情况下就会出现排队的情况,很浪费时间。

而RDMA则像是ETC,跳过人工取卡,收费等步骤,直接刷卡,极速通过。既节省了时间,又节省了人力。

RDMA相比TCP/IP,既降低了对计算资源的占用,又提升了数据的传输速率。

RDMA的内核旁路机制‍‍允许应用与网卡之间的直接数据读写,‍‍这样可以将服务器内的数据传输时延降低到‍‍接近1微秒。同时,RDMA的‍‍内存零拷贝机制允许接收端直接从发送端的内存读取数据,‍‍极大地减少了CPU的负担,‍‍提高了CPU的利用率。

使用RDMA的好处包括:

内存零拷贝(Zero Copy):RDMA应用程序可以绕过内核网络栈直接进行数据传输,不需要再将数据从应用程序的用户态内存空间拷贝到内核网络栈内存空间。
内核旁路(Kernel bypass):RDMA应用程序可以直接在用户态发起数据传输,不需要在内核态与用户态之间做上下文切换。
CPU减负(CPU offload):RDMA可以直接访问远程主机内存,不需要消耗远程主机中的任何CPU,这样远端主机的CPU可以专注自己的业务,避免其cache被干扰并充满大量被访问的内存内容。

什么是RoCE?

从 2010 年开始,RMDA 开始引起越来越多的关注,当时IBTA发布了第一个在融合以太网 (RoCE) 上运行 RMDA 的规范。然而,最初的规范将 RoCE 部署限制在单个第 2 层域,因为 RoCE 封装帧没有路由功能。2014 年,IBTA 发布了 RoCEv2,它更新了最初的 RoCE 规范以支持跨第 3 层网络的路由,使其更适合超大规模数据中心网络和企业数据中心等。

RDMA协议包含Infiniband(IB),internet Wide Area RDMA Protocol(iWARP)和RDMA over Converged Ethernet(RoCE):

InfiniBand:设计之初就考虑了 RDMA,重新设计了物理链路层、网络层、传输层,从硬件级别,保证可靠传输,提供更高的带宽和更低的时延。但是成本高,需要支持IB网卡和交换机。
iWARP:基于TCP的RDMA网络,利用TCP达到可靠传输。相比RoCE,在大型组网的情况下,iWARP的大量TCP连接会占用大量的内存资源,对系统规格要求更高。可以使用普通的以太网交换机,但是需要支持iWARP的网卡。
RoCE:基于 Ethernet的RDMA,RoCEv1版本基于网络链路层,无法跨网段,基本无应用。RoCEv2基于UDP,可以跨网段具有良好的扩展性,而且可以做到吞吐,时延相对性能较好,所以是大规模被采用的方案。RoCE消耗的资源比 iWARP 少,支持的特性比 iWARP 多。可以使用普通的以太网交换机,但是需要支持RoCE的网卡。

为什么RoCE是目前主流的RDMA协议?

先说iWARP,iWARP协议栈相比其他两者更为复杂,并且由于TCP的限制,只能支持可靠传输。所以iWARP的发展不如RoCE和Infiniband。

而Infiniband协议本身定义了一套全新的层次架构,从链路层到传输层,都无法与现有的以太网设备兼容。举例来看,如果某个数据中心因为性能瓶颈,想要把数据交换方式从以太网切换到Infiniband技术,那么需要购买全套的Infiniband设备,包括网卡、线缆、交换机和路由器等等,成本太高

RoCE协议的优势在这里就很明显了,用户从以太网切换到RoCE只需要购买支持RoCE的网卡就可以了,其他网络设备都是兼容的。所以RoCE相比于Infiniband主要优势在于成本更低。

RoCEv1

2010年4月,IBTA发布了RoCE,此标准是作为Infiniband Architecture Specification的附加件发布的,所以也称为IBoE(InfiniBand over Ethernet)。这时的RoCE标准是在以太链路层之上用IB网络层代替了TCP/IP网络层,所以不支持IP路由功能。RoCE V1协议在以太层的typeID是0x8915。

在RoCE中,infiniband的链路层协议头被去掉,用来表示地址的GUID被转换成以太网的MAC。Infiniband依赖于无损的物理传输,RoCE也同样依赖于无损的以太传输,这一要求会给以太网的部署带来了成本和管理上的开销。

以太网的无损传输必须依靠L2的QoS支持,比如PFC(Priority Flow Control),接收端在buffer池超过阈值时会向发送方发出pause帧,发送方MAC层在收到pause帧后,自动降低发送速率。这一要求,意味着整个传输环节上的所有节点包括end、switch、router,都必须全部支持L2 QoS,否则链路上的PFC就不能在两端发挥有效作用。

RoCEv2

由于RoCEv1的数据帧不带IP头部,所以只能在L2子网内通信。为了解决此问题,IBTA于2014年提出了RoCE V2,RoCEv2扩展了RoCEv1,将GRH(Global Routing Header)换成UDP header + IP header,扩展后的帧结构如下图所示。

针对RoCE v1和RoCE v2,以下两点值得注意:

RoCE v1(Layer 2)运作在Ehternet Link Layer(Layer 2)所以Ethertype 0x8915,所以正常的Frame大小为1500 bytes,而Jumbo Frame则是9000 bytes。
RoCE v2(Layer 3)运作在UDP/IPv4或UDP/IPv6之上(Layer 3),采用UDP Port 4791进行传输。因为 RoCE v2的封包是在 Layer 3上可进行路由,所以有时又会称为Routable RoCE或简称RRoCE。

RoCE,无损先行

由于RDMA要求承载网络无丢包,否则效率就会急剧下降,所以RoCE技术如果选用以太网进行承载,就需要通过PFC,ECN以及DCQCN等技术对传统以太网络改造,打造无损以太网络,以确保零丢包。

PFC:基于优先级的流量控制。PFC为多种类型的流量提供基于每跳优先级的流量控制。设备在转发报文时,通过在优先级映射表中查找报文的优先级,将报文分配到队列中进行调度和转发。当802.1p优先级报文的发送速率超过接收速率且接收端的数据缓存空间不足时,接收端向发送端发送PFC暂停帧。当发送端收到 PFC 暂停帧时,发送端停止发送具有指定 802.1p 优先级的报文,直到发送端收到 PFC XON 帧或老化定时器超时。配置PFC时,特定类型报文的拥塞不影响其他类型报文的正常转发,

ECN:显式拥塞通知。ECN 定义了基于 IP 层和传输层的流量控制和端到端拥塞通知机制。当设备拥塞时,ECN 会在数据包的 IP 头中标记 ECN 字段。接收端发送拥塞通知包(CNP)通知发送端放慢发送速度。ECN 实现端到端的拥塞管理,减少拥塞的扩散和加剧。

DCQCN(Data Center Quantized Congestion Notification):目前在RoCEv2网络种使用最广泛的拥塞控制算法。融合了QCN算法和DCTCP算法,需要数据中心交换机支持WRED和ECN。DCQCN可以提供较好的公平性,实现高带宽利用率,保证低的队列缓存占用率和较少的队列缓存抖动情况。

 

胡胡子的
关注 关注
  • 3
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
rdma优势及Roce简介.pdf
06-22
介绍rdma及其roce优势,来源迈络斯公司技术分享,可以熟悉下
RoCERDMA技术
海绵汽水的博客
10-09 4万+
1、RoCE RoCERDMA over Converged Ethernet)是一种允许通过以使用远程直接内存访问(RDMA)的络协议。华为 CE8860 交换机插入 CX4归一化卡(10GE/25GE) 后,立即支持RoCE 10GE/25GE通信。 由于具备明显性能和成本优势,在NAS存储集群中采用RoCE协议,将逐渐成为市场主流。 DMA控制器从CPU完全接
高性能络之PFC(Priority Flow Control,优先级流控制)
最新发布
ohio0102
04-09 997
PFC
RDMA驱动软件简介(一)
墨染锦年的博客
09-08 1581
1 前言 本节主要概述一下当前所使用的TCP/IP通信模式,在当前高吞吐量、低时延的业务需求下所存在的一些瓶颈和弊端,同时简单介绍一下RDMA技术特性以及该技术在络数据传输过程中所具有的优势。 1.1 传统TCP/IP通信模式 传统的TCP/IP络通信,数据需要通过用户空间发送到远程机器的用户空间。数据发送方需要将数据从用户应用空间Buffer复制到内核空间的Socket Buffer中。然后Kernel空间中添加数据包头,进行数据封装。通过一系列多层络协议的数据包处理工作,这些协议包括传输控制协议(
RDMARoCE 、IB 、TCP、Ethernet
喝醉酒的小白
07-11 6916
它通过使用专门的适配器和硬件来绕过操作系统和协议栈的限制,实现了直接从一个主机内存到另一个主机内存的数据传输。RoCERDMA 扩展到以上,使得具备 RoCE 功能的设备可以在以上实现低延迟和高带宽的数据传输。RDMA 是一种在 IB 和 RoCE 等技术中使用的数据传输模型,允许主机直接访问远程主机的内存。综上所述,RDMARoCE、IB、TCP 和 Ethernet 之间存在着密切的关系,涉及到不同层次的络技术和协议,以满足高性能计算和数据中心络的需求。
RoCE
weixin_42038119的博客
03-09 299
RoCE RDMA络传输介绍
RDMA 协议中的王者:RoCE v2络,低延迟、高吞吐量!
网络技术联盟站
02-13 2091
RoCERDMA over Converged Ethernet)是一种基于以的远程直接内存访问协议,旨在通过以络实现高性能、低延迟的数据传输。RoCE早期版本(RoCE v1)存在一些局限性,随着技术的不断发展,RoCE v2应运而生,弥补了先前版本的一些缺陷。远程直接内存访问(RDMA)是一种数据传输方式,它允许数据在不涉及主机CPU的情况下从一台计算机的内存传输到另一台计算机的内存。这种方式降低了传统TCP/IP协议栈的开销,提高了数据传输效率。
简单理解RDMA RoCE
weixin_37871174的博客
11-26 1754
对啊RDMA RoCE理解: 就是说RDMA卡已经把协议栈(UDP/TCP) 这些协议栈全部offload到RDMA卡的ASIC芯片上来实现了(硬化)。而且在本机上用户buffer到卡buffer也是直接通过的DMA方式把数据搬到卡中,然后卡通过络协议UDP(RoCE)的方式将数据传送到对端去,对端收到数据后也直接在卡上把数据接收下来,并且直接DMA到用户的buffer中。这样整个过程都没有CPU和内存拷贝的参与。但是RDMA也存在问题:就是不能大规模使用,以及需要环境很干净,否则就会因
RDMA】技术详解(一):RDMA概述
热门推荐
bandaoyu的note
01-20 5万+
:https://blog.csdn.net/qq_21125183/article/details/86522475 1. DMA和RDMA概念 1.1 DMA DMA(直接内存访问)是一种能力,允许在计算机主板上的设备直接把数据发送到内存中去,数据搬运不需要CPU的参与。 传统内存访问需要通过CPU进行数据copy来移动数据,通过CPU将内存中的Buffer1移动到Buffer2中。DMA模式:可以同DMA Engine之间通过硬件将数据从Buffer1移动到Buffer2,而不需要操作系统
详谈RDMA(远程直接内存访问)技术原理和三种实现方式
RToax
03-13 4733
目录 远程直接内存访问(即RDMA) InfiniBand技术简介 iWARP 技术简介 RoCE技术简介 远程直接内存访问(即RDMA) 导:远程直接内存访问(即RDMA)是一种直接内存访问技术,它将数据直接从一台计算机的内存传输到另一台计算机,无需双方操作系统的介入。RDMA最早在Infiniband传输络上实现,后来业界厂家把RDMA移植到传统Ethernet以上,降低了RDMA的使用成本,推动RDMA技术普及。 然而,在Ethernet以上,根据协议栈融合度的差异...
rdma抓包RoCE、RRoCE
06-21
rdma抓包RoCE、RRoCE
k8s-freeflow:完整的解决方案,以支持RDMA(在InfiniBand和RoCE上)并在Kubernetes上加速TCP到裸机的性能
04-27
GoogleTest PASS :ffrouter ETCD V3 API的监视模式Watch API提供了一个基于事件的接口,用于异步监视键的更改。 etcd3监视程序通过从给定的修订版本(当前版本或历史版本)连续监视来等待密钥更改,并将密钥更新流...
RDMA原理分析技术实现解析
08-10
RDMA背景介绍、络协议、优势、标准、应用和RNIC接口、传输分类方式、InfiniBand技术、IWARP技术、RoCE原理、不同RDMA技术比较、RDMA关键技术延伸
RDMA_Aware_Programming.pdf
06-14
Chapter 1 RDMA Architecture Overview Chapter 2 RDMA-Aware Programming Overview Chapter 3 VPI Verbs API Chapter 4 RDMA_CM API Chapter 5 RDMA Verbs API Chapter 6 Events ...
RDMA技术详解——RDMA的三种实现方式
咸鱼弟的博客
08-21 9661
RDMA作为一种host-offload, host-bypass技术,使低延迟、高带宽的直接的内存到内存的数据通信成为了可能。目前支持RDMA络协议有: 1、InfiniBand(IB): 从一开始就支持RDMA的新一代络协议。由于这是一种新的络技术,因此需要支持该技术的卡和交换机。 2、RDMA过融合以(RoCE): 即RDMA over Ethernet, 允许通过以执行RDMA络协议。这允许在标准以基础架构(交换机)上使用RDMA,只不过卡必须是支持RoCE的特殊的
[精华] RDMA技术原理分析、主流实现对比和解析
架构师技术联盟
04-22 6446
      摘要: 远程直接内存访问(即Remote Direct Memory Access)是一种直接内存访问技术,它将数据直接从一台计算机的内存传输到另一台计算机,...
[RoCE]RDMA over Converged Ethernet模式以及配置
weixin_30673715的博客
03-14 1518
[阅之前需要现有RDMA的基础知识] 1.RDMA over Converged Ethernet(RoCE) Remote Direct Memory Access(RDMA)是一种远程内存管理能力,允许不同服务器上应用的内存之间直接移动数据,不需要CPU的干预。RoCE是一种机制,它提供了在无损以络上极低延迟的高效数据传输。 随着数据中心朝着可靠以发展,搭载RoCE的CX系列...
带你初识RDMA技术——RDMA概念,特点,协议,通信流程
NewB20143864的博客
03-12 9349
章目录
初识RDMA技术——RDMA概念,特点,协议,通信流程
kaili的博客
11-29 1万+
1. RDMA概念 在DMA技术中,外部设备(PCIe设备)能够绕过CPU直接访问主机的系统主存; RDMA(Remote Direct Memory Access)在概念上是相对于DMA而言的。指外部设备能够绕过CPU,不仅可以访问本地主机的主存,它还可以访问另一台远端主机上用户态的系统主存。 2. RMDA与Socket Socket通信示意图: 在传统的Socket套接字络中,应用程序向操作系统申请络资源时,要通过特定的API来管理程序的行为。 RDMA通信示意图: RDMA仅仅使用操作系
RDMA ROcE和Iwarp区别
07-25
RDMA(Remote Direct Memory Access)是一种数据传输技术,它允许主机之间直接访问彼此的内存,而无需通过操作系统的介入。RDMA可以显著提高数据传输效率和降低处理延迟,常用于高性能计算、存储络和数据中心等领域。ROCERDMA over Converged Ethernet)和Iwarp都是基于RDMA技术的协议,但有一些区别: 1. ROCERDMA over Converged Ethernet):ROCE是一种在以上实现RDMA的协议。它利用以的物理层和数据链路层,通过使用特殊的以帧格式和扩展头部来实现RDMA功能。ROCE可以在现有以基础设施上实现低延迟、高带宽的数据传输,并且与以交换机和路由器兼容。 2. Iwarp:Iwarp是一种在TCP/IP络上实现RDMA的协议。它通过在TCP/IP协议栈中添加额外的RDMA支持来实现数据直接存取。Iwarp协议需要在操作系统内核中进行实现,因此需要特定的驱动程序和软件支持。由于基于TCP/IP协议,Iwarp可以在现有的IP络基础设施上使用。 在ROCE和Iwarp之间选择时,需要考虑以下因素: - 兼容性:ROCE和Iwarp在不同的络基础设施上有不同的兼容性要求。ROCE需要支持特殊的以帧格式和扩展头部,而Iwarp需要特定的驱动程序和软件支持。 - 性能:ROCE和Iwarp在性能上可能有所不同。ROCE在以上实现RDMA,可以提供较低的延迟和较高的带宽。而Iwarp基于TCP/IP协议,可能受到TCP协议的限制,性能可能相对较低。 - 配置和管理:ROCE和Iwarp在配置和管理方面也有所不同。ROCE可以利用现有的以基础设施,配置相对简单。而Iwarp需要特定的驱动程序和软件支持,可能需要额外的配置和管理工作。 最终选择ROCE还是Iwarp取决于具体的应用需求、络环境以及设备兼容性等因素。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • 图解DPU智能网卡,各种网络卸载细节 4115
  • 一文读懂RoCE,基于以太网的RDMA 2722
  • DPU智能网卡OVS全卸载方案 1866
  • vdpa 框架详解 1599
  • 虚拟网络演进之路 1327

最新评论

  • vdpa 框架详解

    weixin_43175146: 关于vpda历史背景哪块写的真好,一直对这些技术发展顺序有些困惑,感谢分享

  • bluefiled2 DPU网卡代表口方案

    weixin_45733152: 原创? https://blog.csdn.net/leoufung/article/details/121046338 ?

大家在看

  • kafka-生产者监听器(SpringBoot整合Kafka) 216
  • Mongodb数组元素更新之使用$定位数组第一个元素
  • pxe自动装机
  • 判断TS流格式
  • Java 读取 Excel、docx、pdf 和 txt 等文件万能方法!

最新文章

  • 使用 Red Hat OpenShift 和 NVIDIA BlueField DPU 加速云就绪基础设施和 Kubernetes
  • openvswitch流表转发原理
  • fidas :“软硬融合入侵检测卸载方案”
2023年3篇
2022年11篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

聚圣源洛克班华文新魏北京手机卡号女生起名字寓意好的字楚汉骄雄天下歌词工程机公司起名闫晓平上古小说虚假广告海贼王免费观看樱花动漫程姓起名女孩子修仙界最后的单纯烧烤店的起名字条纹壁纸坦克世界不能打字武极天下5200钱姓起名郑姓起名字大全郑姓起名个体工商户烟酒店起名梦见大蟒蛇机械设备设计公司起名酒业公司起名大全酒业公司起名字罗孩子起名如何给农资公司起名字医院起名字大全免费晨起名起名测分打分免费测试神魔之子大航海时代4威力加强版攻略淀粉肠小王子日销售额涨超10倍罗斯否认插足凯特王妃婚姻让美丽中国“从细节出发”清明节放假3天调休1天男孩疑遭霸凌 家长讨说法被踢出群国产伟哥去年销售近13亿网友建议重庆地铁不准乘客携带菜筐雅江山火三名扑火人员牺牲系谣言代拍被何赛飞拿着魔杖追着打月嫂回应掌掴婴儿是在赶虫子山西高速一大巴发生事故 已致13死高中生被打伤下体休学 邯郸通报李梦为奥运任务婉拒WNBA邀请19岁小伙救下5人后溺亡 多方发声王树国3次鞠躬告别西交大师生单亲妈妈陷入热恋 14岁儿子报警315晚会后胖东来又人满为患了倪萍分享减重40斤方法王楚钦登顶三项第一今日春分两大学生合买彩票中奖一人不认账张家界的山上“长”满了韩国人?周杰伦一审败诉网易房客欠租失踪 房东直发愁男子持台球杆殴打2名女店员被抓男子被猫抓伤后确诊“猫抓病”“重生之我在北大当嫡校长”槽头肉企业被曝光前生意红火男孩8年未见母亲被告知被遗忘恒大被罚41.75亿到底怎么缴网友洛杉矶偶遇贾玲杨倩无缘巴黎奥运张立群任西安交通大学校长黑马情侣提车了西双版纳热带植物园回应蜉蝣大爆发妈妈回应孩子在校撞护栏坠楼考生莫言也上北大硕士复试名单了韩国首次吊销离岗医生执照奥巴马现身唐宁街 黑色着装引猜测沈阳一轿车冲入人行道致3死2伤阿根廷将发行1万与2万面值的纸币外国人感慨凌晨的中国很安全男子被流浪猫绊倒 投喂者赔24万手机成瘾是影响睡眠质量重要因素春分“立蛋”成功率更高?胖东来员工每周单休无小长假“开封王婆”爆火:促成四五十对专家建议不必谈骨泥色变浙江一高校内汽车冲撞行人 多人受伤许家印被限制高消费

聚圣源 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化