如何做好大型数据中心的运维

什么叫数据中心?维基百科给出的定义是“数据中心是一整套复杂的设施。它不仅仅包括计算机系统和其它与之配套的设备(例如通信和存储系统),还包含冗余的数据通信连接、环境控制设备、监控设备以及各种安全装置”。在云大行其道的今天,随着数据中心建设规模的不断扩大,新技术的层出不穷,数据中心变得越来越复杂。大型数据中心往往是由很多规模庞大的集群系统组成,其运维工作需要具备方方面面的知识,包括硬件、网络、服务器、存储、安全以及业务上的东西,需要上下打通地去做运维工作。

当一个数据中心的规模非常大,面临的挑战和问题也比较超前,很多在小环境小体系下不是问题的问题在这样的规模下也就凸显出来了,所以要做好大型数据中心的运维工作,对整个数据中心技术体系的系统学习就要花费比较长的时间,只有对这个数据中心整体非常了解,才能有针对性地制定一些运维方案,甚至可以二次开发一些监控运维软件,对整个数据中心进行有效管理与监控,提升整个数据中心的运行效率、减少故障的发生,从而将运维工作推向新的高度。
   一个大型的数据中心内部往往都包含了很多小系统,运维工作都是围绕着这些具体的应用系统展开的,具体的可以分为基础运维管理、日常业务运维、网络、服务器、存储、安全六大部分,本文就来说一说一般大型的数据中心应该具备的哪些运维方法和能力。

首先从数据中心的基础运维管理方面来说,则主要有硬件配置管理、可维护性优化、监控、报警处理、自动化运维、断网,断电、机房容灾等运维工作。硬件配置管理包含机柜里每台服务器的型号和硬件配置,并清楚是哪些业务系统在使用这些服务器。即便是虚拟化运行环境,也需要知道这些虚机都在哪些物理机组成的资源池中流动。数据中心物理机和虚机数量都很庞大,使用自动化运维是非常有必要的。自动化运维不仅能提升运维的工作效率,还可以减少人为的参与,同时让数据中心自己管理自己,释放人力。并对数据中心可能发生的故障还做好监控与报警处理,以便能够在故障发生的第一时间知晓问题,往往一次大的故障都是从开始的一点小故障逐渐扩展最终引发整个大系统的崩溃的,所以在出现一些小的异常时一定要及时消除,而这些异常就要靠完善的监控和报警系统来检测。

从数据中心的日常业务运维方面考虑,则主要有资源、机器分配、资源使用、网络吞吐、故障恢复、备份应用,集群搭建、流量,压力,迁移扩容,升级、上下级业务关联情况、资源利用率、异常处理、应急预案等等。这些日常运维工作实际上要花费大量的人力和时间,是运维工作的主体,也最烦琐,但却最不能体现业绩的部分。一个数据中心能够长久安全稳定运行,就是靠这些日常的工作积累,只有平时注意这些细微的变化,才能不断优化。压力测试、软件升级、业务部署、异常处理等几乎成为了运维工作的日常必修课,只有将这些工作做好,才能避免出现大的故障,并能够快速部署新的业务,根据资源使用情况及时扩容设备。

从数据中心网络方面考虑,则主要有网络硬件设备、ACL、OSPF、LACP、VIP、流量、负载均衡、二三四七层情况、网络监控、万兆板卡、核心交换等。网络是数据中心的重要组成部分,是一切工作运行的基本保证,没有网络数据中心就无法运转起来,所以保证网络稳定是数据中心运维工作中的重中之重。这里主要关注的就是网络的硬件问题,ACL部署还有流量监控情况。网络可以说是包罗万象,涉及太多的设备和协议技术,所以也需要不断地学习,加深对网络技术的理解,这样才能做好网络运维工作。

从数据中心服务器方面考虑,则主要有文件系统、内核参数调优、各种硬盘驱动、内核版本、Kernel panic等。Linux系统不仅在服务器,在网络操作系统也占据着主流地位,掌握Linux系统的使用才能更好地处理服务器和网络设备的运维工作,Linux是运维工作的一项基本技能。除了熟悉Linux系统的操作,还要对服务器的运行状态和内核运行状态进行监控与管理,减少服务器故障的发生。一般大型的数据中心都包含有成千上万台的服务器,几乎每天都会有服务器出现各种各样的问题,只有对服务器有深入理解才能很好地消除问题。为了防止服务器故障引发业务中断,所以一般在服务器上都要部署虚拟化技术或者集群技术,当一台服务器物理硬件故障时,业务可以平滑切换到其它服务器上,业务不会受到任何影响。这些虚拟化技术增加了运维的难度,也需要对虚拟化技术进行不断深入学习。

从数据中心存储方面考虑,架构更加多样和复杂化。在云计算、虚拟化、大数据等相关技术进入数据中心后,存储已经发生了巨大的改变,块存储、文件存储、对象存储支撑起多种数据类型的读取;集中式存储已经不再是数据中心的主流存储架构,海量数据的存储访问,需要扩展性、伸缩性极强的分布式存储架构来实现。在大规模系统支撑上,分布式文件系统、分布式对象存储等技术,为存储的各种应用提供了高度可伸缩、可扩展和极大的弹性支撑和强大的数据访问性能,并且因为这些分布式技术对标准化硬件的支持,使得大规模数据中心存储得以低成本的建设和运维。当然分布式存储不是要取代现有的盘阵,而是为了应付高速成长的数据量与带宽而产生的新形态存储系统。另外就是软件定义存储,它代表了一种趋势,即存储架构中软件和硬件的分离,也就是数据层和控制层的分离。对于数据中心用户而言,通过软件来实现对存储资源的管理和调度,实现存储资源的虚拟化 、抽象化、自动化,能够完整的实现数据中心存储系统的部署、管理、监控、调整等多个要求,使得存储系统具备灵活、自由和高可用等特点。企业及互联网数据以每年50%的速率在增长,新增数据中结构化数据总量有限,多数为非结构化、半结构化数据,数据中心存储架构随着业务发展也需要极强的弹性适应能力,低成本、海量扩展、高并发性能是面向大型云数据中心运营存储架构的基本技术属性。如何进行数量庞大且杂乱无章的数据存储与深度应用处理,并迅速提取有价值的信息,形成商业决策将成为各类型企业生存基础,也是今后存储以及围绕存储架构不断衍生的业务发展方向。

最后从数据中心安全方面来考虑,安全就是十几个小项:攻击保护、升级备份、抓BUG/找BUG、脚本工具、数据安全、服务巡检等项目,其中每一项拿出来其实都包含很多的内容。比如说到攻击与保护,这个主要指的是防止外来的异常入侵者对数据中心发起的恶意和无意攻击,恶意攻击就是有人故意的使用各种攻击方法,进入到数据中心内部,将重要的数据窃取或者破坏,达到其不可告人的目的。也有的是无意的攻击,因为整个数据中心是要与外界保持互联互通的,运行是动态的,变化的,不可避免会有一些异常流量攻击数据中心,有时甚至来自于数据中心内部,比如某些服务器中毒,或者硬件故障,构造出了环路,异常流量等网络故障,这些都会影响到数据中心的运行,所以如何做好数据中心的攻击与保护是一个很大的题目,这并不是在数据中心里部署几台安全设备就能解决的,需要对整个数据中心进行全面的统一规划,并有针对性地部署一些安全防护措施,而且随着各种黑客技术的提升,安全防护措施也要不断提升,这是一个不断学习与完善的过程,只要数据中心还在运行,这个完善就不会停止。为了方便运维,也要做好一些执行脚本,以便在出现突发事件时,能够快速处理问题。比如一个数据中心的业务出现异常,为了快速恢复业务,需要将路由进行调整,将流量全部引到其它的数据中心,这就需要在核心路由器上进行调整,这时有个现成的脚本就可以自动执行,达到快速切换的目的。数据中心还应该准备很多其它工作的脚本,以便紧急的时候快速使用。

通过上面的分析您一定很惊讶,原来数据中心运维包含这么多内容,大大小小数十项,而且每一项包含的内容说起来都不那么简单,也涉及很多的技术知识。一个数据中心能否稳定运行,能够高效运行,运维是关键。只有将这些运维工作很好地部署和执行下去,数据中心才能长期稳定。

时间: 2024-08-02 22:24:49

如何做好大型数据中心的运维的相关文章

开启数据中心主机运维的上帝视角

常常有这么一句话在激励每一位运维人员,"不以故障多为耻,而以恢复快为荣."运维人员就是要快速定位问题,分析问题,排除故障,快速恢复来保障生产业务不受中断.然而,现代大型数据中心,运维人员要管理的系统节点比以前繁多,为了掌控数据中心的实时运行情况与定位问题,需要花的时间成本已经长得无法接受. 极好的可视化手段,能够让运维人员在纷乱的监控资源群中快速定位故障.我们用以下几点来了解这些功能. 一.全面观察,实时监控 我们抽象的把每一个监控的主机都当成一个圆圈,有多少监控的主机,就出现多少个圈

[运维] 第五篇:数据中心改善运维,ITIL与ISO20000如何选择?

企业数据中心需要改善运维现状,提高运维水平,更好的为业务服务,ITIL肯定是不二的选择,因为毕竟ITIL是运维方面的最佳实践.但是ITIL只是告诉你如何才能提高运维能力,但是并没有告诉你怎么才能在你的企业里做好ITIL的落地工作,进而真正对运维发挥效果,所以具体怎么做,还是得你按照ITIL的理念去结合企业实际情况去落地.落地的时候你可能会有两个选择,是通过ITIL流程落地呢?还是去通过ISO20000认证呢?          因为本文不是讲ITIL和ISO20000的帖子,所以具体的讲解可以通

3D可视化平台助力数据中心IT运维!

IT运维部门核心价值是保障业务系统的正常运行,而支撑业务系统的IT环境又非常复杂,涉及人力.网络.服务器.IDC.机柜.各类应用等等资源.任何一个环节出现问题,都将"牵一发而动全身".可见,IT系统资源监控与管理非常重要. 因此,我们需要将影响应用系统稳定运行的几个要素数据3D可视化.比如:基础设施资源使用情况:应用性能指标及系统整体运行情况,如这个系统是否可用.整体健康度等.总体来说,可以用到的常用可视化手段有数据统计.拟物化关系.流程关系.各种图表展现以及3D动画技术等. 在当下大

软件定义存储在大型数据中心的应用分析

历史经验一再表明,由技术进步推动的变革往往以超乎人们想象的速度和烈度发生.SDS软件定义存储作为新兴的技术,即使穷尽你所有想象,也难以预测其发展的速度有多快,影响的程度有多深远.面对新的变革和潮流,在追逐变化的同时,还需冷静思考可能带来的问题.SDS在数据中心的应用一定能提高性能和降低成本,并可控风险么?SDS会隐藏什么样的问题? 问题一.不能充分利用现有的基础架构 数据中心是非常繁忙的,IT部门要同时接受从多个不同的应用系统发来的需求和数据任务并及时响应和处理.另外,IT专业人员的日常工作还需

TWaver 3D应用于大型数据中心(续)

在2014年11月份,我们当时发了一篇有关TWaver HTML5 3D应用于大型数据中心的文章,该blog比较详细的描述一些常用的功能的实现方法,比如:动态添加机柜,告警,温度,湿度等相关的功能的具体实现.其实会用这些东西的话基本上可以使用我们的TWaver HTML5 3D来实现相关的应用了,可是在有些客户觉得这还不够“动态”,都是代码一下生成的,少了一些交互,前些天同事说要不再加点功能,让它更加“动”一些,所以今天我抽了个时间再接着来个“续”——动态的添加机柜,主机和告警.1.动态的添加机

大型数据中心内部路由选择:为何选择BGP而不是OSPF

大型数据中心fabric往往把BGP作为内部路由协议的原因:1.BGP比IGP具有更简单的状态机和数据库:2.BGP交换的是路由,直接命令,不需要运行算法(比如SPF)来计算路径:3.BGP支持逐跳流量工程:4.路由传播来说,BGP范围更小(对等体传播,OSPF需要链路状态泛洪),因此更稳定. IBGP和EBGP的选择:1.EBGP会话一般建立在BGP对等体的链路上,IBGP一般建立在BGP对等体的环回接口上:2.EBGP使用AS-path防止环路,IBGP在同一AS内,使用水平分割原则:默认从

大型互联网产品/应用运维职责

一.    代码风险控制和线上服务配置安全控制. 1. 通过我们的AOS系统对代码上线进行合理的审核,从研发.测试.产品.总监.运维各个环节增加管控,来实现代码安全性.2. 通过我们的puppet管控对线上需要修改文件或修改系统配置,需要相关人员审核以便增加线上的安全性.3.通过我们的puppet管控对线上需要安装软件等,需要相关人员审核以便增加线上的安全性. 二.    发现问题 1.    通过zabbix收集服务器上各个指标,比如系统负载.业务宕机,业务状态是否良好通过短信和邮件方式进行报

(越秀中心网络运维)远程管理路由器的网络设备操作

远程管理路由器 1,首先新建一个华为拓扑图的路由器链接2,配置IP地址和子网掩码(1)配置RA3260-AR1的IP地址<Huawei>system view 进入系统视图[Huawei]interface GigabitEthernet 0/0/0进入接口千兆以太网模式0/0/0[Huawei-GigabitEthernet0/0/0]ip address 192.168.1.1 255.255.255.0输入IP地址和子网掩码(2)配置RA3260-AR2的IP地址<Huawei&g

与时俱进云架构下的IT运维之道

随着IT技术的不断演进,IT基础架构变革愈演愈烈,特别是"云"这种开放架构的迅猛发展.在主动拥抱新兴技术的同时,对于习惯了传统封闭架构的企业IT运维,是该与时俱进的时候到了.IT变革没时间思考,知名的IT厂商都在干什么?我们看到:IBM云计算的关注点是:云.大数据及分析.移动.社交.安全.与此同时,近年来新兴技术成熟度曲线报告中显示,多种新技术初次上榜,如智能工作区.联网家庭.智能机器人.数据科学.混合云计算等.虽然"云"具备一些传统架构无法比拟的优势,但用云计算完