IT设备的救命稻草-如何正确构建OOB带外网络

现实生活中,无论是传统的大型园区网络,运营商。或是现今流行的数据中心、虚拟化等技术,往往归根结底都是大量的网络设备以及服务器堆叠而成。自然而然,当网络或者服务器因为软件故障或者人为操作失误的原因导致系统宕机后,如何第一时间登陆到故障设备,并快速恢复业务已经成为考验运维人员的一大难题。

其实,试想如果网络中存在一个完善的OOB带外网络,在故障发生时,网络控制中心可通过此网络登录网络设备或者服务器的带外管理接口或者Console接口。从而第一时间获取故障信息并予以修正,或者收集log文件上报厂家。岂不美哉?

OOB网络定义及现网问题分析

在详细介绍解决方案之前,先明确什么是OOB带外网络。

OOB全称Out Of Band,而OOB带外网络是指:通过一套与任何业务数据网络没有关联的独立网络,网络控制中心可以连接到各个服务器或者网络设备的管理接口或者console。此管理流量不会因业务数据网络重大故障而受其影响,故称之为带外网络。与之相对于的则是带内网络。

为什么需要OOB网络?

对很多企业或者运营商来说,当进行计划性的远端网络或系统维护时,往往会提前安排远端值班人员或者临时驻场工程师随时待命。若因为软件Bug等情况导致系统无法启动时,驻场工程师到达现场并连接带外接口或者console,协助远端操作工程师进行故障排查及业务恢复。

此方法存在的两个弊端:

  • 一方面驻场工程师经验资质可能低于远端执行计划事务的工程师,从而导致故障排查进度缓慢,故障时间延长。最总影响网络KPI以及非常糟糕的客户使用体验。
  • 另一方面,无论是值班人员或者驻场工程师都存在项目成本问题,长期来说,每一次计划性的维护都需要一个驻场人员待命。但其实多数维护工作并不一定就会产生严重的故障,可是为了“万一”两字,也需要驻场工程师支持。

对于网络规模较大,业务节点分布全国的大型企业甚至运营商来说,这些问题会被不断放大。试想某企业的北京总部为了管理公司全国的网络节点,没有OOB网络而通过大量的驻场工程师协助维护将是一件费时费力的事情。

解决方案

如果此时引入OOB网络,无论是执行计划维护的工程师还是日常运维工程师,OOB就如一颗定心丸。一旦出现任何意外事故,工程师可以立即通过OOB网络登录远端故障设备立即排查故障,并及时恢复业务。所以OOB网络从某种程度上可算的上是IT设备的救命稻草。

真OOB?假OOB?

也许有朋友会问到,我司的设备所有带外接口和console接口也都通过网络设备互联起来了,我们可以随时随地通过带外接口或者console接口登录设备。

但是,依我多年经验发现,很多企业为了节省管理成本。仅仅是简简单单把带外接口以及console-以太网转换设备直连到业务交换机或者路由器上。

当企业网络工作正常时,一切相安无事。试想如出现任何网络故障时,则极有可能波及此“带外管理”和console接口设备,从而导致这些“带外设备”形同虚设。

此为假OOB网络!

如何正确构建OOB网络

为正确构建OOB网络,我们需要遵循如下要求:

 

    1). 此OOB网络需要与业务网络完全独立。

 

如何实现与业务网络完全独立?

对企业来说,如果购买了运营商A的业务网络。则可以通过购买运营商B的广域网接入服务接入全国重要网络节点的OOB网络,以及连接到公司总部OOB核心节点。

对于运营商来说,可以重新铺设独立的OOB光纤网络。或者租用其他运营商的广域网构建其独立的OOB网络。

  2). 网络需要覆盖企业或者运营商所有的重要网络节点,无论国内还是国际节点。

所谓的重要网络节点是指那些如果出现故障会引起区域范围的严重服务中断,例如企业的某远程节点机房核心交换机或路由器。而对运营商来说,可能是某PE路由器,P路由器或者BNG等。

那什么是国际节点?随着越来越多的中国公司走出国门。在海外设置分支机构的公司屡见不鲜。所以对于国内总部来说,远端OOB网络管理海外节点尤其重要。同样对于运营商上来说,也存在很多海外PE路由器等。这些都是需要被OOB网络保护的对象。

与境内OOB节点不同的是,我们很难找到一个独立的运营商帮助构建一个涵盖国内和国际节点的OOB网络。这个时候就需要借助Internet来连接海外OOB节点。总部OOB网络站点可以连接本地运营商的Internet。而海外OOB站点可以通过连接当地运营商从而获得Internet接入。

   3). 当连接国际节点时,需要有安全的通信机制来保障OOB网络的私密性。

上面提到需要用Internet来保证国际节点的通信。而Internet本身是不被信任的,同时日常工作中,网管数据大部分均为明文数据,为了解决此问题我们需要有一套安全机制来保证国内总部OOB网络与国外分支OOB设备的通信是安全可靠的。

 4).7x24的高可用性。

5.) 通过OOB网络能够连接到网络设备的带外接口、系统设备的iLO口,以及最重要的console 口等管理接口。

6). 具备监控节点环境的功能,例如但不限于:机柜前后门的开关监控,机柜温度监控等。

监控节点环境和监控设备软件方面的健康同样重要。只有保证设备的物理安全才存在软件方面的设备监控。例如我们需要监控机柜门是否在未授权的情况下开启或者关闭,如果此情况发生,总部管理员会收到相关的告警提示等。

OOB网络设备选型

与业务网络设备类似,OOB网络也需要对于的网络设备来支撑。但相比业务网络,OOB网络存在如下特性:


·        低带宽,ssh/telnet/SNMP等管理流量占用带宽很低。偶尔会存在带外FTP或者SCP传输升级文件等情况,但是总的来说对吞吐量要求不高。

·        有一定的安全性要求,支持防火墙功能,支持IPsecVPN等。

而console转以太网设备,正如上文OOB要求中提到,除基本的以太网转console功能以外,还需要环境温度检测,以及通过DIO接口配合小型触发开关来检测机柜门的开关动作。

#选型示例#


通过分析,选型如下(以Juniper为例):

OOB网络路由器:

总部:SRX300 x2 组成Cluster模式,支持1Gbps光纤。

Juniper最新款企业级低端防火墙,支持所有路由器协议(例如:RIP, OSPF, BGP等),交换功能,以及作为防火墙本身细颗粒度的安全策略等。全1Gbps 以太网口以及1Gbps 光口。

分支机构:SRX110 100Mbps 以太网上联或者ADSL、VDSL上联。

与SRX300类似,支持所有路由协议,支持交换以及防火墙功能。同时由于有RJ11接口,支持xDSL服务。以太网口为100Mbps。

OOB Console转换器:(以Opengear为例)

分支机构:Opengear 远端网关,根据console口数量不同,型号也不同。支持温度传感器以及DIO编程接口。

(注:下图的Opengear 甚至支持3G/4G,在某些不具备有线OOB网络连接的地方,例如某些户外站点可以使用3G/4G版本的Opengear做到远程OOB网络管理。)

以上仅是选型示例。当然,你可以根据自身需求以及当地市场情况采用类似的产品来实现一样的效果。

网络设计

设备选型完成以后,接下来就是网络设计阶段,根据OOB网络需求分析,得出如下网络框架,如下图:

技术细节

OOB设备数量

OOB设备数量包含SRX110设备数量以及Opengear 数量,两者的区别在于,SRX110除了预留一个接口连接Opengear的以太网接口以外,剩余的以太网接口将用于连接业务设备的带外管理接口,例如Juniper设备的FXP0接口。

基于此,工程师需要统计每一个远程OOB站点需要接入多少业务设备,每一个设备存在多少个带外管理接口或iLo接口,此决定了所需SRX110接口数量,若业务设备带外管理口数量超过SRX110的以太网接口数,我们可以通过下挂二层交换机的方法解决接口短缺。

同时,工程师也需要统计每个站点需要接入OOB网络的业务设备console数量。并根据此数量购买相应的Opengear设备。

子网划分

在OOB网络中,有如下几个地方需要IP地址:

1.     每一个远端OOB站点(国内和国际)需要一个独立的子网用于SRX110下挂子网网关,Opengear以太网接口需要一个IP地址作为console登陆地址,以及业务设备带外接口IP。

2.     国内远端OOB站点SRX110与OOB中心路由器SRX300之间,需要点对点的IP地址来做到互联互通。

3.     在网管中心与OOB中心节点SRX300之间需要建立点对点互联。此处也需要IP地址。

4.     最后就是互联网Internet IP地址。SRX300 需要向本地运营商申请互联网Internet点对点IP地址。而海外OOB节点也同样需要从当地的运营商申请Internet IP地址。

互联互通

三层路由互联方面,国内OOB网络和国际OOB网络实现细节不尽相同。

先从国内OOB网络说起:

由于使用了运营商B的广域网来连接各个OOB节点。根据运营商B提供的网络服务不同,可以采用不同的路由协议。

存在下面两种情况:

1.     若运营商B根据每一个OOB站点分配一个VLAN ID,此VLAN ID最终二层透传到总部OOB网络SRX300(在运营商此为L2VPN技术)。此种情况下,SRX300配置为点到多点P2MP型接口来连接所有国内远程站点。并在点到多点P2MP上运行OSPF协议,从而让总部能够学习到所有OOB站点的网段。另外,总部SRX300通过OSPF发布默认路由到每一个分支OOB网络站点。

2.     若运营商B在其内部为此OOB网路构建了一个三层VRF。所有国内远程OOB节点均通过PPPoE协议学习到运营商B的默认网关,而在OOB网络中心节点来说,由于是光纤专线,OOB网络SRX300可以与运营商B的PE运行BGP协议从而学习到所有国内远程OOB站点的网段信息。

对国际OOB站点而言

由于是通过Internet传输数据,所以保证海外OOB站点与中心OOB站点的数据通信安全可靠非常重要。自然而然IPsec VPN Site to Site是最好的选择。通过在海外站点与中心站点之间建立IPsec 隧道。所有网管数据例如SNMP,FTP,telnet等明文数据均被很好的保护起来。

而为了实现中心OOB网络站点与海外站点的互联互通,取决于海外OOB站点的数量多少,我们可以采用点对点OSPF动态学习的方式,站点较少的情况下也可以手工指定静态路由来实现路由的互通。

总结

本文概述了OOB带外网络的定义,以及业务网和带外网分离的重要性。同时也介绍了如何构架一个安全完整的OOB网络。

在完成OOB网络构建以后,一方面减少了公司项目资源不必要的浪费,同时也大大减小了运维工程师的压力,毕竟出现软件bug等故障时,我们还有那么一根救命稻草。

谢谢大家的关注!

时间: 2024-10-13 04:58:24

IT设备的救命稻草-如何正确构建OOB带外网络的相关文章

移动团购:压死骆驼的救命稻草

各大银行.第三方支付机构.电信运营商在去年全力推进.角逐移动支付市场,更让移动团购最大的难题--支付瓶颈有了打破的希望,但似乎还没有打破. 文/张书乐 本文刊载于<销售与市场>杂志评论版2013年03期,转载请注明出处. 支付宝公司人士称,2012年团购市场总体交易比2011年有80%的增长,其中移动团购交易增幅惊人,比上一年劲升27倍,占到整个团购市场15%的份额.从资本层面看,截至2012年12月31日,美团网.拉手网.窝窝团等10家团购网站已累计获得2.2亿元人民币以及5.36亿美元以上

MIUI 7 会是小米的救命稻草吗?

花无百日红,人无千日好.再绚烂的曾经,或许一朝不慎,就会成为过去.在科技圈,诺基亚.黑莓等就是最好的例子.而对于看似蓬勃发展的小米来说,这么早早地看衰似乎并不合乎时宜.毕竟出货量在国内智能手机上还是处于一线阵营,各种智能硬件产品也层出不穷,俨然是创建庞大商业帝国的趋势. 但实事求是地说,目前小米最核心的智能手机业务已经出现下滑的苗头,昔日的高速增长已经完全成为过去式.于是,当初引领小米进入智能手机行业并一鸣惊人的"先知"--MIUI系统跳出来,准备拯救世界.据爆料,MIUI 7将于8月

滴滴小巴上线:无奈的妥协还是真救命稻草

对于通过收购.合并.残酷竞争等一系列大动作,网约车平台终于只剩下寥寥数家.这其中每个平台目前的形势还都不一样:滴滴一家独大,神州专车固步自封,易到传出欠款消息--但不管是成为巨头春风得意,还是惨被压制郁郁寡欢,它们当下都遇到了各种压力.尤其是对于滴滴来说,成为巨头的同时,它也成为一个更显眼的"靶子". 网约车新政在户籍.车籍.排量上的种种限制:出于盈利考虑而不断减少补贴让网约车司机.乘客怨声载道--在多重压力之下,滴滴推出小巴这个新业务.滴滴小巴的推出,是滴滴对当下局势的一种无奈妥协,

LogMiner救命稻草_找回误删除数据

LogMiner日志挖掘技术在有些时候可以被比作是命悬一线的救命稻草,比方说误删除数据(如delete执行不当),可以通过LogMiner挖掘日志文件将这些数据补插回来 使用LogMiner预览: o LogMiner的原理就是找出日志文件(redo file),所对应的UNDO.如你新增1W行数据,在redo里以insert形式体现,对应的undo即为delete o LogMiner所有操作要在单个会话里执行 o LogMiner是挖掘在线日志或归档日志,因此最好要知道误操作的具体(精确更好

“减少风险”还是“管理风险”哪一根才是救命稻草?

在大数据分析为背景的p2p网贷公司迅速崛起2014年二季度,全国P2P网贷成交额554.75元,较一季度增加145.04亿元,增长35.40%.与此同时,伴随着网贷行业的兴起,网贷公司运作上的坏账也一路飙升.银监会针对网贷公司风险提出监管,试图围剿.网贷公司提高自身风控能力已经迫在眉睫,实际上,线上信贷相对于线下信贷有着自身的特殊性."减少风险"和"管理风险"哪一种风控才是更适合p2p网络模式,成为网上企业的救命稻草? 网络信贷风险不同于传统线下信贷风险 传统线下信

不做播放器改玩社交 网络音乐又捞到救命稻草了?

网络音乐10余年,一直难以盈利的问题,以及每年总要爆出一两次免费下载音乐将被终结的传闻,都说明了业界对盈利的渴望和迷惑.而现在,玩社交似乎成了他们新的救命稻草. 文/张书乐 刊载于<中国文化报>网络文化版8月7日,原标题<网络音乐:从做播放器向社交突围> 7月中旬,网易云音乐对外宣布用户数突破一亿,距离其2013年4月23日首次发布,历时约两年三个月.在这个云音乐清单里,还包含有超过1200位入驻明星,500万首收录音乐.但这并不是网易最引以为傲的,云音乐的真正卖点,其实是其超过6

央行降息 是农村互联网金融的救命稻草?

互联网金融各种关系正在重组,原先的商业模式已不合时宜.资本生产方.理财平台.资产经纪方,担保和保险方,流动性提供商和坏账处理方等多元机构正脱离单一属性,全面进行互联网化. 之前,线下复杂的生态系统被线上冲击下,正逐渐打包成四五个综合性平台出现.随着一二线城市风起云涌,四五线城市百废待兴,农村市场的缺口却在不断拉大.如何刺激农村市场?是现实问题,也是战略问题. 央行降息刺激农村市场,是农村互联网金融的救命稻草吗? 21日,中国人民银行宣布,自11月22日起下调金融机构人民币贷款和存款利率,金融机构

财经天下周刊:中国云计算——马化腾的救命稻草 任正非的“下个荣耀”

科技兴则民族兴,科技强则国家强. 新中国成立七十年来,我国科技事业走过了辉煌的进程,中国科技实力伴随着经济发展同步壮大,实现了从跟跑,并跑到领跑的历史性跨越.科技创新成为新中国站起来.富起来.强起来的重要支撑和体现. 从今天开始,<财经天下>周刊推出七十年新兴科技专题报道,回首科技创新由弱到强写下的中国篇章,见证用科技创新成就的一个又一个梦想. 十年前的今天,马云肯定没有心思想退休的事情. 因为他每天醒来,都要面对生死时速:服务器处理器载荷 98%,离过载只剩一步.他挖来时任微软亚洲研究院的副

微软windows想通过开源自救,不过是一根救命稻草

windows失败的原因我觉得除了windows内核不够先进,架构漏洞多,我觉得还是windows已经没有创新能力,坐在原地吃老本.比如说msn,以前跟QQ不相上下,但是因为缺乏创新,10几年还是原地踏步,而QQ已经一日千里,进步非常大,跟原来系统已经完全不同了.原地踏步的软件系统怎么跟上日新月异的软件发展步伐呢?至于wp,微软自己没做手机,否则会知道自己的系统是不适合手机的.耗电大的问题根本是无解. windows说pc市场疲软机会不大,不过这恰好是sinox的极好机会.sinox有可能一举击