如何通过网络遥测(Network Telemetry)技术实现精细化网络运维?

基于AI、大数据的互联网应用推动了互联网数据中心产品、技术的快速升级。

首先,接入带宽从传统的10Gbps升级到25Gbps/100Gbps,需要基础网络提供高转发能力保障业务的高可用。

其次,基于RDMA(Remote Direct Memory Access,远程直接内存访问)无损以太网技术的普遍应用,实现了计算节点到存储节点的微秒级时延,大大优化端到端的业务转发性能,而这也意味着对网络运维提出了更高的挑战——如何在大规模、复杂的HPC(High Performance Computing)网络中实现更加精细的流量可视、可控?如何面向业务实现端到端的秒级故障定位,并为网络的持续优化提供精准的数据支撑?

锐捷网络认为,通过基于交换机硬件芯片的Network Telemetry技术方案(INT+gRPC),可以实现整网的流量可视化,为实现真正的可视化运维提供新的思路。查找了相关资料整了下,以下是锐捷专家的精彩解读。

网络运维新挑战

为了保证业务的高可靠,基于Scale out方式实现的分布式计算和存储应用(Hadoop/ Map reduce/HDFS)得到了大规模使用,不仅摆脱了单服务器的计算、存储性能的限制,同时可提供更灵活的扩展性,能够快速响应业务需求变化,提高系统的可靠性、可用性和存取效率。

然而业务本身在网络中分布是不可控的,因此在实际网络流量模型中不可避免会出现多对一的通信模式,即 Incast模型。下图即典型的Incast通信模型:


▲ TCP Incast通信模型示意图

例如,当一台Master节点向一组Slave节点发起一个计算任务请求时,所有Slave节点几乎会同时返回计算结果数据,对于Master节点来说就产生了一个“微突发流”。对于合理的“微突发流”,可以依靠接入交换机设备内部的报文缓存机制解决微突发丢包问题。

目前,主流交换机设备缓存比较小,一般以MByte为单位。下图是对应1G、10G和25G交换机的缓存容量。


▲ 带宽提升与缓存提升对比说明

从表中不难看出,网络接口速率从1Gbps发展到25Gbps,服务器的吞吐能力增加25倍,而交换机的缓存容量同比仅增加8倍,同时报文缓存时间反而下降65%(按照交换机全端口公平使用缓存为例)。

因此,25G网络架构的TCP Incast现象比10G网络更加明显,瞬时的多打一导致出接口报文拥塞,出接口缓存用完后会基于尾部丢弃机制进行丢包,应用监测到丢包后发起TCP重传,造成数据端到端时延的进一步恶化,严重影响业务体验。

针对网络丢包引起的业务故障,需要网络监控系统快速定位网络中哪台交换机的哪个端口因缓存不足导致了丢包。同时,重要业务端到端时延超出预期时,也需要定位流量转发路径上每个节点的转发时延。

总结起来,需要网络监控系统实现如下能力:
? 快速定位哪台交换机的哪个端口发生丢包;
? 实时监控每台交换机的Buffer使用情况;
? 端到端时延可以定位到具体设备和链路。

运维可视化技术实现

凭借传统的网络监控手段无法解决“看不见”的问题,如时延、转发路径、缓存和丢包。例如,由外部应用发起的请求获取网络状态信息的SNMP协议,就无法实时反映网络的状态。

为了解决此类难题,业界广泛引入Network Telemetry(网络遥测)这一理念,相比于SNMP,Telemetry实现了网络设备主动推送状态信息的能力,具有更强的时效性。

事实上,Telemetry并不是新发明,NetFlow和sFlow早已实现了网络流量的采样和推送,但NetFlow、sFlow推送的是最原始的数据采样信息,数据以IP报文格式呈现给分析工具,而非用户期望的规范化数据模型,再优异的分析工具其扩展性能也难以承担整个数据中心网络的监控分析,只能在某一分析任务中发挥作用。

另一方面,数据流量并非网络状态的全部,网络设备的 CPU、内存、网络拥塞信息、网络事件的日志信息等也无法通过NetFlow或者sFlow实时传递出来。

gRPC(Google Remote Procedure Calls ,谷歌远程过程调用)是Google公司开源的一个高性能、跨语言的RPC框架,使用HTTP/2协议并使用Proto Buffer作为序列化和反序列化的工具。通过在交换机中集成gRPC应用,定义灵活的数据格式以及数据推送的阈值来实现交换机自身状态的主动推送能力,可以实现周期性推送交换机Buffer Usage、CPU、Memory等信息给监控服务器。当发生Buffer不足导致丢包,也会实时通知给监控服务器,实现网络运行数据的可视化。


▲ gRPC交互机制

上图展示了其中一种gRPC的交互机制:
? 在交换机开启gRPC功能后充当gRPC 客户端角色,监控服务器充当gRPC服务器角色;
? 交换机主动向监控服务器发起gRPC通道建连;
? 交换机主动上报Buffer Usage、CPU、内存等信息给监控服务器,当Buffer发生丢包,交换机也会实时上报丢包事件给监控服务器。

gRPC的出现很好的解决了实时数据无法有效传给监控服务器的问题。

INT(In-band Network Telemetry)也是一种新型Telemetry协议,由Barefoot、Arista、Dell、Intel和VMware共同提出。INT的出现解决了转发路径和转发时延不可见的问题。

INT的整体处理流程如下图所示:


▲ 可视化网络

? 报文达到首节点,通过在交换机上设置的采样方式匹配并镜像出该报文,并在四层头部后插入INT头,将报文入端口Port ID、出端口 Port ID、入端口时间、出端口时间、以及设备的DEVICE ID封装成MetaData,将MD插入到INT头部之后;
? 报文转发到中间节点,设备匹配到INT头部后,在INT头部后再插入一层MD;
? 报文转发到最后一跳,设备匹配INT头部后,再插入一层MD,并在报文外部封装一个IP头(ERSPAN),外层IP为监控服务器地址,这样INT报文便转发到监控服务器。

总结:针对面向HPC业务的下一代数据中心网络,基于INT和gRPC的Network Telemetry技术可以实现业务端到端的网络流量可视化,打破“网络黑盒”,为精细化网络运维提供整体的解决方案和必要的技术支撑。锐捷网络新一代25G/100G网络交换机产品均已实现Network Telemetry能力(gRPC和INT)。

原文地址:https://blog.51cto.com/3064643/2391357

时间: 2024-07-31 14:13:19

如何通过网络遥测(Network Telemetry)技术实现精细化网络运维?的相关文章

技术升级成为Linux运维人前途的魔障,是跟进还是选择被淘汰?

技术迭代升级是做IT人最苦恼的难题,随着社会互联网应用的普及,企业追求高的运行效率和性价比,以往一个小的Linux运维项目动辄10多人,现在流程和过程自动化以后,像类似唯品会一样的大型电商公司才不过20人的Linux运维团队. "以前会个基本的Linux操作和一些常见的安全部署处理就能拿个8K以上的薪资,现在的面试者一出来就会各种的高阶能力,例如Docker.Tomcat.KVM等,如果不是因为企业发展还不错,站住了现在的位置,可能会面临失业."10年就工作的张先生说到. 在IT行业里

无最新的一些云技术及私有云运维标题文章

云运维的优势与传统的运维服务相比,基于云计算运维服务实现了三大转变.首先它变被动为主动.基于云计算的运维服务以及各种监控.警告.日志.报告服务工具为依托,通过全面的网络式监控可以及早发现故障隐患,从而可以建立起主动式运维.其次,它大幅度降低了运维成本.云计算运维服务把数据乃至应用程序全部集中到云端,也就是数据中心的服务器上.对于运维来说,这意味着大量在本地的运维工作转移到云服务器,运维的总体工作量大大减少,运维成本也就大幅度降低. 云运维已是不可阻挡的趋势,明晚九点就由我们的特邀嘉宾,运维圈大佬

技术架构下的运维治理

COBIT看运维治理 运维治理的典型框架 运维治理的典型过程 运维治理的目标 运维治理之流程体系 运维治理之规范体系 运维治理之标准化 服务治理之架构失控 运维治理之架构点控制 运维治理之架构线的控制 技术架构之名字服务 名字服务中心的服务治理 一次业务访问流能够很好的容忍其经过的硬件及软 件故障,从而提供高可用的服务. --fault tolerance --high availability DevOps持续交付平台体系 持续交付平台分层 持续交付之持续部署 运维平台之数据化平台   ---

运维技术规划

运维中关键技术点解剖:1 大量高并发网站的设计方案 :2 高可靠.高可伸缩性网络架构设计:3 网站安全问题,如何避免被黑?4 南北互联问题,动态CDN解决方案:5 海量数据存储架构 一.什么是大型网站运维? 首先明确一下,全文所讲的”运维“是指:大型网站运维,与其它运维的区别还是蛮大的:然后我们再对大型网站与小型网站进行范围定义,此定义主要从运维复杂性角度考虑,如网站规范.知名度.服务器 量级.pv量等考虑,其它因素不是重点:因此,我们先定义服务器规模大于1000台,pv每天至少上亿(至少国内排

关于运维方面的网络基础

前段时间去学习了思科网络基础CCNA的知识,与我们运维所需的网络基础大同小异,当然其包容性要大很多.我们主要来看下网络方面的内容: 网络七层模型 七层网络模型是我们进行网络间通信的基本理论依据,由上至下依次为应用层(七层),表示层,会话层,传输层,网络层,数据链路层,物理层(一层)需要注意的是层数不要搞反了,那么七层协议的作用及对应协议如下图: 在七层协议模型中我们看到由A到B的通信是怎么实现的呢?在A主机的第七层开始,每往下一层都加一个标志信息,直到物理层传输至B主机,B主机由下向上每层解开对

(视频)《快速创建网站》 4.2 完结篇 – 应用运营vs.发射卫星,遥测(Telemetry) 技术

本文是<快速创建网站>系列的第10篇(完结篇),如果你还没有看过之前的内容,建议你点击以下目录中的章节先阅读其他内容再回到本文.访问本系列目录,请点击:http://anb.io/blog/tag/wordpress-on-azure/ 1. 网站管理平台WordPress和云计算平台Azure简介 (6分钟视频 ) 2.1 在Azure上创建网站及网站运行机制 (13分钟视频) 2.2 域名绑定操作和Azure负载均衡机制 (12分钟视频) 2.3 WordPress 初始化和网站管理功能

docker技术剖析--docker网络

防伪码:不经一番寒彻骨,怎得梅花扑鼻香.                 docker技术剖析--docker网络 一. Docker 中的网络功能介绍 默认情况下,容器可以建立到外部网络的连接,但是外部网络无法连接到容器. Docker 允许通过外部访问容器或容器互联的方式来提供网络服务 外部访问容器: 容器中可以运行一些网络应用,要让外部也可以访问这些应用,可以通过  -P  或  -p  参数来指定端口映射. 练习环境:运行一个容器,提供web服务和ssh服务 宿主机启用路由转发(net.

内容分发网络CDN(互联网技术)

内容分发网络(互联网技术)CDN的全称是Content Delivery Network,即内容分发网络.其基本思路是尽可能避开互联网上有可能影响数据传输速度和稳定性的瓶颈和环节,使内容传输的更快.更稳定.通过在网络各处放置节点服务器所构成的在现有的互联网基础之上的一层智能虚拟网络,CDN系统能够实时地根据网络流量和各节点的连接.负载状况以及到用户的距离和响应时间等综合信息将用户的请求重新导向离用户最近的服务节点上.其目的是使用户可就近取得所需内容,解决 Internet网络拥挤的状况,提高用户

网络空间大搜索技术

由于泛在网络空间.网络应用模式和大数据的发展,国内研究人员对网络空间搜索技术有了新的认识,逐渐形成了网络空间智慧搜索暨网络空间大搜索技术. 国家自然科学基金委员会第120期双清论坛于9月28日-29日在北京召开.本次论坛主题为网络空间智慧搜索基础研究,共邀请了国内外25所大学和科研机构的41位著名专家参会.本次论坛由信息科学部.管理科学部.地球科学部.数理科学部和政策局联合主办,论坛主席由方滨兴院士.吴曼青院士.贾焰教授和陈熙霖研究员共同担任. 论坛开幕式由信息二处刘克处长主持,信息科学部常务副