[运维] 第一篇:数据中心运维模型之我见

从实际经验来看,每个企业的数据中心运维上都不会是十全十美的,因为毕竟企业业务发展是迅速的,对IT的要求相应也是也是越来越高,越来越复杂,所以无论是在运维团队架构上,还是在具体的管理层面上,尽管现实空间有限,但都有很多值得调整的空间和余地,且听我道来!
         先看看这张运维模型,了解一下企业运维到底包括了那些东西:

        企业运维包括了四象限:人员、管理、工具和业务。对于人员,通常企业有两种结构:一种是功能性驱动,比如机房维护团队、IT基础架构运维团队、应用维护团队等;另一种是管理流程驱动分组,例如:事件管理流程团队、问题管理流程团队、变更和发布流程团队等,这种团队大多数根据企业管理的实际需要和管理制度要求设定,人员从各个功能性驱动团队中选取,临时组建。功能性驱动团队人员结构、人数、人员、功能等基本固定,在企业中作为正式的管理组织,基本保持稳定的状态,如果调整,肯定是属于动静比较大的动作;而管理流程驱动团队,是临时根据管理需要设定,人员结构、人数、人员安排皆根据企业实际管理需要设定,所以组织灵活,随时设立,随时调整。所以这两者最大的区别是灵活性,而灵活性对于企业来说事最重要的生存要素!再说说管理,管理也发两种,一种是企业的管理制度,另一种是根据企业发展要求设定的管理制度和管理要求,或者说是管理流程,例如ITIL流程、OA管理流程、ISO20000、CMMI等。管理制度的基本点都是企业在很长时间发展起来的基本要求,所以改的难度很大,但是管理流程是灵活的,可变的。讲到这里,大家明白了吧,如果企业最求管理价值的最大化和业务发展的匹配度,那最好的办法就是通过管理流程的实施和管理流程驱动团队的设定来实现,一方面保持企业管理具有足够的灵活度,另一方面又在灵活的基础上保证企业稳定的发展。这就是为什么做IT服务管理(ITSM)或者ITIL项目时,需要在实施管理流程的同时设立相应的管理模块团队,保证管理流程的顺利实施。
        再说说工具层面。所谓工具实际上指的的通过技术层面的提高去提高运维的能力和水平。例如使用堡垒机来保证运维相关账号和权限的安全,通过监控来保证对数据中心业务各个层面(OS、DB、中间件、应用、网络、存储等)的监控,讲一句口号就是“全监控、全覆盖”。这种技术层面的实施可以保证运维的稳定性和运维效率,确保运维符合业务发展的要求和行业或监管部门的要求。技术层面和管理层面最大的区别就是在“人”上!综合监控算是企业中实施比较复杂的项目,但也基本上就涉及到运维部门的相关人员,和其他部门没有关系。但是如果实施ITIL项目,那涉及到面就广了,不仅运维要参与,研发部门要参与,测试部门要参与,财务部门要参与,后勤管理部门要参与等等,将来ITIL项目上线,各个部门的都要使用。所以管理层面和技术层面最大的区别就在“人”上,因而难度也在“人”上 。以监控项目为例,实施时刚开始难,因为管理员对这个东西一开始认识不清晰,不了解,所以难,但一旦了解后,速度就加快了,结项也好结;流程项目相反,做前期流程概念宣贯的时候,大家基本上都你好我好,但一旦管理上的改变涉及到具体的人后,那这种反作用就大多了,开始好开,但想结项就难了,我见过的流程项目没有一个不延期的。所以无论是甲方,还是乙方对于项目的不同特点,一定要了解,心里做好预案。忠告一句,在实施管理类项目时,尽可能不动管理架构,多使用临时性的管理组织来减少对现有人员的压力!
       最后说说业务。企业基本上不是卖产品,就是卖服务,或者这两者都卖。但无论卖什么,我们运维存在的价值就是保证业务的稳定发展,不出什么幺蛾子。现在云时代已来,虚拟化成为我们企业数据中心发展的主流。虚拟化的到来,实际是硬币的两面。一方面提高了企业运维的灵活度和弹性,但另一方面也对运维人员提出了更高的要求,不仅要了解传统的业务系统,还是了解虚拟化的特点和架构。有些人在讨论虚拟化对运维的影响,我的看法是,虚拟化和云的到来,减少了运维人员的数量,但是增加了运维人员的质量和难度。
         聊了这么多,能帮到我们什么呢?从这四象限来看,运维是个整体,环环相扣。我们做了管理制度和管理架构的调整,就能很大程度上提高运维能力吗?不一定,因为工具层面会限制管理制度的先进性。例如我们不做全面的监控,那我们可能大多数情况下,只能人肉监控,无论是从监控的全面性,还是监控的实时性都差的很多,这种情况下,事件管理流程会忙的不可开交,而且很容易就进入紧急状态,人员都会疲于奔命,这时候有人会进入问题管理流程,深入探讨系统深层次问题吗?反过来说,只做工具层面的事,不做管理制度的调整,能提高运维水平吗?答案也是不能。监控项目完成后,会有大量的监控告警事件产生,需要管理员处理,没有事件管理流程,不做事件分级,那你去看吧,运维的人将会不堪其扰,根本就处理不过来,最后等所有人都疲了的时候,就是监控系统弃之不用的时间了。所以我们在做任何运维调整的时候都要考虑其他象限可能产生的影响,进而在项目前将这些影响考虑进来,免得到时手忙脚乱!
        最后简单说一句:一动不动,一动全动!

时间: 2024-10-06 00:47:27

[运维] 第一篇:数据中心运维模型之我见的相关文章

[运维] 第六篇:告警是数据中心运维的核心驱动力!

告警事件是数据中心运维的核心驱动力,我们做的所有运维工作都是要减少业务出现故障的概率,提供更高的业务可用性.不知道大家是否认可这句话?还是看这张图,通过这张图,把这个问题讲透:        作为综合事件管理平台自身,需要有这样几个部件:1 丰富事件接口.作为数据中心的核心驱动引擎,需要有丰富的事件接口可以将各种IT事件,甚至非IT事件接收过来,常见的接口有rest.web service.snmp.soap.socket.xml.文本.jdbc等.因为面对的对象不同,所以能够使用的方式是完全不

[运维] 第三篇:漫谈数据中心运维自动化

运维自动化是从2010年以后起来的一个运维需求,10年之前,运维项目主要集中在监控和ITIL流程上,当时也有BMC Control-M等产品在推,但是客户接受程度和影响力不如监控和流程.10年之后,运维自动化提上日程,建行开始招运维自动化的标,IBM.BMC.HP都纷纷参与,测了三轮,最后HP opsware中标,只能说一句厉害!工商银行也在自己组织服务商做自己特色的运维自动化平台,做了3.4年,基本成型,服务商也做出了自己的运维自动化产品,正式推向市场.当时运维自动化的主要功能是五项:自动化巡

VMware交付的软件定义的数据中心 - 运维管理

上一篇,我介绍了VMware交付的软件定义的存储产品,Virtual SAN和vCenter SiteRecovery Manager,本文就详细描述VMware交付的数据中心管理和自动化产品组. 数据中心管理和自动化 在前面几期我详细描述了VMware交付的软件定义的计算.网络和存储,细心的读者可以发现,如果数据中心的计算资源.网络资源和存储资源都被虚拟化后,IT部门可以更加灵活而弹性的控制数据中心的各种资源,为业务部门提供更好的支持和服务.但是,这也给IT部门对于数据中心的管理提出了更大的挑

数据中心运维管理系统解决目前运维难题!

在数据中心生命周期中,数据中心运维管理是数据中心生命周期中最后一个.也是历时最长的一个阶段.数据中心运维管理系统就是为提供符合要求的信息系统服务,而对与该信息系统服务有关的数据中心各项管理对象进行系统的计划.组织.协调与控制,是信息系统服务有关各项管理工作的总称.对于很多数据中心来说,保障和提高数据中心运维管理绩效是现在数据中心亟待解决的问题. 教据中心建设作为一种战略投入基本上已经形成共识,但是在巨额的投入后仍面临着种种问题与风险,面临着数据量急速膨胀,场地严重不足,运营成本高昂.能耗大.安垒

关于数据中心运维管理系统!

数据中心运维管理系统是一款简单易用的数据中心日常运维活动的管理软件.规范管理运维团队以及服务流程,保障数据中心业务高可靠运行,让您彻底告别excel和纸质工单的传统管理方式,进入电子化.规范化的高效运维时代. 那么数据中心运维管理系统有什么功能特征呢,请往下看! 数据中心运维管理系统产品功能: 服务台 作为运维人员与用户联系的接口,受理呼叫请求.人工报障等服务事件,智能过滤故障报警,辅助填报工单,帮助值守人员高效处理事件. 事件管理 对事件工单进行自动分配.多级联动,并按事件的优先级和紧急程度进

云计算数据中心运维管理要点

在数据中心生命周期中,数据中心运维管理是数据中心生命周期中最后一个.也是历时最长的一个阶段.数据中心运维管理就是:为提供符合要求的信息系统服务,而对与该信息系统服务有关的数据中心各项管理对象进行系统的计划.组织.协调与控制,是信息系统服务有关各项管理工作的总称.数据中心运维管理主要肩负起以下重要目标:合规性.可用性.经济性.服务性等四大目标. 由于云计算的要求弹性.灵活快速扩展.降低运维成本.自动化资源监控.多租户环境等特性除基于ITIL的常规数据中心运维管理理念之外,以下运维管理方面的内容,也

数据中心运维管理的根本建议!

数据中心运维管理过程是数据中心全生命周期中最后一个阶段,也是历时最长的一个阶段,数据中心运维管理也是依托于已交付的数据中心基础设施之上.通过有效的管理,最终使数据中心得以实现服务与经济上的目标,实现运维管理的持续性.时效性.标准性.安全性和可用性5大目标. 然后,我们要明确运维团队的工作职责与需要掌握的技能. 由于数据中心的持续性特性,需要由724小时运维人员进行技术支持运维服务,运维团队主要职责是持续保障数据中心运行相关的基础设施系统设备稳定连续运行,并掌握数据中心各类设备的工作原理.操作方法

数据中心运维管理平台(idcops)

简介 django-idcops 是一个开源的倾向于数据中心运营商而开发的,拥有数据中心.客户.机柜.设备.跳线.物品.测试.文档等一些列模块的资源管理平台,解决各类资源集中管理与数据可视化的问题.django-idcops 通过"数据中心"来分类管理每个数据中心下面的资源,每个数据中心均是单独的. 软件许可协议 django-idcops 遵循 Apache License 2.0. 联系 作者博客 email: [email protected] qq群:185964462 点击进

[运维] 第二篇:数据中心运维IT运维项目建设之我见

运维项目千千万,今天重点讲一下IT服务管理的项目,也是在过去几年各个企业数据中心都在建设的东东:ITIL.综合监控和运维自动化.先看ITIL逻辑架构图:         这是根据ITIL最佳实践理论和企业运维实际结合的ITIL逻辑架构图.最底层是基础架构管理层,在架构管理层运维人员通过人肉或工具对IT环境进行管理.综合监控平台的建设基本上在这一层,综合监控平台的目标是"全监控和全覆盖"(关心综合监控的朋友可以看我其他的监控帖子).监控的核心是什么?综合监控管理平台.通过综合监控管理平台