云计算数据中心运维管理要点

在数据中心生命周期中,数据中心运维管理是数据中心生命周期中最后一个、也是历时最长的一个阶段。数据中心运维管理就是:为提供符合要求的信息系统服务,而对与该信息系统服务有关的数据中心各项管理对象进行系统的计划、组织、协调与控制,是信息系统服务有关各项管理工作的总称。数据中心运维管理主要肩负起以下重要目标:合规性、可用性、经济性、服务性等四大目标。

  由于云计算的要求弹性、灵活快速扩展、降低运维成本、自动化资源监控、多租户环境等特性除基于ITIL的常规数据中心运维管理理念之外,以下运维管理方面的内容,也需要我们加以重点分析和关注。

一、理清云计算数据中心的运维对象

  数据中心的运维管理指的是与数据中心信息服务相关的管理工作的总称。云计算数据中心运维对象共可分成5类:

  (1) 机房环境基础设施部分。这里主要指为保障数据中心所管理设备正常运行所必需的网络通信、电力资源、环境资源等。这部分设备对于用户来说几乎是透明的,因为大多数用户基本并不会关注到数据中心的风火水电。但是,这类设备如发生意外,对依托于该基础设施的应用来说,却是致命的。

  (2) 在提供IT服务过程中所应用的各种设备,包括存储、服务器、网络设备、安全设备等硬件资源。这类设备在向用户提供IT服务过程中提供了计算、存储与通信等功能,是IT服务最直接的物理载体。

  (3) 系统与数据,包括操作系统、数据库、中间件、应用程序等软件资源;还有业务数据、配置文件、日志等各类数据。这类管理对象虽然不像前两类管理对象那样“看得见,摸得着”,但却是IT服务的逻辑载体。

  (4) 管理工具,包括了基础设施监控软件、监控软件、工作流管理平台、报表平台、短信平台等。这类管理对象是帮助管理主体更高效地管理数据中心内各种管理对象,并在管理活动中承担起部分管理功能的软硬件设施。通过这些工具,可以直观感受并考证到数据中心如何管理好与其直接相关的资源,从而间接地提升的可用性与可靠性。

  (5) 人员,包括了数据中心的技术人员、运维人员、管理人员以及提供服务的厂商人员。人员一方面作为管理的主体负责管理数据中心运维对象,另一方面也作为管理的对象,支持IT的运行。这类对象与其他运维对象不同,具有很强的主观能动性,其管理的好坏将直接影响到整个运维管理体系,而不仅仅是运维对象本身。

二、定义各运维对象的运维内容

  云计算数据中心资源管理所涵盖的范围很广,包括环境管理、网络管理、设备管理、软件管理、存储介质管理、防病毒管理、应用管理、日常操作管理、用户密码管理和员工管理等。要对每一个管理对象的日常维护工作内容有一个明确的定义,定义操作内容、维护频度、对应的责任人,要做到有章可循,责任人可追踪。实现对整个系统的全生命周期的追踪管理。

三、建立信息化的运维管理平台系统

  云计算数据中心的运维管理应从数据中心的日常监控入手,事件管理、变更管理、应急预案管理和日常维护管理等方面全方位地进行数据中心的日常监控。实现提前发现问题、消除隐患,首先要有完整的、全方位实时有效的监控系统,并着重监控数据的记录和技术分析。

  数据中心的业务可以概括为:通过运行系统来向客户提供服务。没有信息系统的支撑来运行IT系统就如超市里仍然采用手工结账一样不能让顾客满意。信息化的数据中心运维管理平台系统包括如下方面:

  机房环境基础设施监控管理系统

  IT系统监控管理系统

  IT服务管理系统

四、定制化管理

  灵活性、个性化是云服务的显著特点,用户对应用系统有着千差万别的个性化需求,云服务提供商在保证共性需求的基础上,需满足用户个性化定制需求,向用户提供灵活、个性化配置的云服务系统。云服务提供商要提供按需变化的服务,就要有反应敏捷的人、流程、工具来适应业务变化的需要。云服务下的运维需要更多的灵活性和可伸缩性,可以根据客户、合作伙伴的需要,快速调整资源、服务和基础设施。

五、自动化管理

  IT服务根据负载变化可以自动调整所需资源,以求在及时响应和节约成本上取得平衡:同时,计算能力规模越来越大,人工管理资源也越来越不实际。这些新特性对IT管理自动化能力提出了更高要求,企业往往希望在不失灵活性的前提下可以得到更高程度的自动化。

  为此,云计算数据中心需要部署自动化管理平台,集中管理虚拟化和云计算平台、提供自定义规则定制功能的自动化解决方案,用户通过使用事件触发、数据监控触发等方式来自动化管理,节约人力同时提高响应速度。

六、客户关系管理

  云计算数据中心是为多租户提供IT服务的,为了保留和吸引客户,在运维过程中客户关系管理非常重要。

  (1) 服务评审:与客户进行定期或不定期的针对服务提供情况的沟通。每次的沟通均应形成沟通记录,以备数据中心对服务进行评价和改进。

  (2) 客户满意度调查:客户满意度调查主要包括客户满意度调查的设计、执行和客户满意度调查结果的分析、改进4个阶段。数据中心可根据客户的特点制定不同的客户满意度调查方案。

  (3) 客户抱怨管理:客户抱怨管理规定数据中心接收客户提出抱怨的途径,以及抱怨的相应方式,并留下与事件管理等流程的接口。应针对客户抱怨完成分析报告,总结客户抱怨的原因,制定相关的改进措施。为及时应对客户的抱怨,应该规定客户抱怨的升级机制,对于严重的客户抱怨,按升级的客户投诉流程进行相应处理。

七、安全性管理

  由于提供服务的系统和数据被转移到用户可掌控的范围之外,云服务的数据安全、隐私保护已成为用户对云服务最为担忧的方面。云服务引发的安全问题除了包括传统网络与信息安全问题(如系统防护、数据加密、用户访问控制、Dos攻击等问题)外,还包括由集中服务模式所引发的安全问题以及云计算技术引入的安全问题,例如防虚机隔离、多租户数据隔离、残余数据擦除以及多SaaS应用统一身份认证等问题。

  要解决云服务引发的安全问题,云服务提供商需要提升用户安全认知、强化服务运营管理和加强安全技术保障等。需加强用户对不同重要性数据迁移的认知,并在服务合同中强化用户自身的服务帐号保密意识,可以提升用户对安全的认知;在服务管理方面,严格设定关键系统的分级分权管理权限并辅之以相应规章制度,同时加强对合作供应商的资格审查与保密教育;加强安全技术保障,要充分利用网络安全、数据加密、身份认证等技术,消除用户对云服务使用的安全担忧,增强用户使用云服务的信心。

八、流程管理

  流程是数据中心运维管理质量的保证。作为客户服务的物理载体,数据中心存在的目的就是保证服务可以按质、按量地提供。为确保最终提供给客户的服务是符合服务合同的要求,数据中心需要把现在的管理工作抽象成不同的管理流程,并把流程之间的关系、流程的角色、流程的触发点、流程的输入与输出等进行详细定义。通过这种流程的建立,一方面可以使数据中心的人员能够对工作有一个统一的认识,更重要的是通过这些服务工作的流程化使得整个服务提供过程可被监控、管理,形成真正意义上的“IT服务车间”.

  数据中心建立的管理流程除应满足数据中心自身特点外,还应能兼顾客户、管理者、服务商与审计机构的需求。由于每个数据中心的实际运维情况与管理目标存在差异,数据中心需要建立的流程也会有所不同。

九、应急预案管理

  应急预案是为确保发生故障事件后,尽快消除紧急事件的不良影响,恢复业务的持续营运而制定的应急处理措施。应急预案的注意事项:

  (1) 根据业务影响分析的结果及故障场景的特点编写应急预案,确保当紧急事件发生后可维持业务运作,在重要业务流程中断或发生故障后在规定时间内恢复业务运作。

  (2) 应急预案除包括特定场景出现后各部门、第三方的责任与职责外,还应评估复原可接受的总时间。

  (3) 应急预案必须经过演练,使相关责任人熟悉应急预案的内容。应急预案应是一个闭环管理,从预案的创建、演练、评估到修订应是一个全过程的管理,绝不能是为了应付某个演练工作,制定后就束之高阁了,而是应该在实际演练和问题发生时不断地总结和完善。

十、结语

  数据中心作为信息与信息系统的物理载体,目前主要用于与IT相关的主机、网络、存储等设备和资源的存放、管理。只有运维管理好一个数据中心,才能发挥数据中心的作用,使之能更好地为云计算提供强大的支持能力。通过有效实施云计算数据中心运维管理,降低人员工作量的同时提高运维人员工作效率,保障业务人员的工作效率,提高业务系统运行状况,进而提高企业整体管理效益,同时提高客户满意度,实现云计算数据中心的价值最大化。

时间: 2024-07-31 01:48:53

云计算数据中心运维管理要点的相关文章

数据中心运维管理的根本建议!

数据中心运维管理过程是数据中心全生命周期中最后一个阶段,也是历时最长的一个阶段,数据中心运维管理也是依托于已交付的数据中心基础设施之上.通过有效的管理,最终使数据中心得以实现服务与经济上的目标,实现运维管理的持续性.时效性.标准性.安全性和可用性5大目标. 然后,我们要明确运维团队的工作职责与需要掌握的技能. 由于数据中心的持续性特性,需要由724小时运维人员进行技术支持运维服务,运维团队主要职责是持续保障数据中心运行相关的基础设施系统设备稳定连续运行,并掌握数据中心各类设备的工作原理.操作方法

数据中心运维管理平台(idcops)

简介 django-idcops 是一个开源的倾向于数据中心运营商而开发的,拥有数据中心.客户.机柜.设备.跳线.物品.测试.文档等一些列模块的资源管理平台,解决各类资源集中管理与数据可视化的问题.django-idcops 通过"数据中心"来分类管理每个数据中心下面的资源,每个数据中心均是单独的. 软件许可协议 django-idcops 遵循 Apache License 2.0. 联系 作者博客 email: [email protected] qq群:185964462 点击进

运维侠客行杭州站沙龙回顾 | 云时代下的运维管理实践

我们处在一个巨变的时代,在云计算.大数据和物联网等新技术.新理念不断更新的大背景下,企业同时面临着数字化和"互联网+"转型的双重挑战,企业对于"稳态IT"和"敏态IT"都提出了强烈的需求,如何推进双态环境下的技术演进变成全行业共同面临的难题. 在这样一个"时空交错"中,优云软件推出了一个名为:"运维侠客行"的线下沙龙品牌,杭州作为首站,活动当天汇聚了来自不同行业和企业的运维从业人员,其中有几十年的运维老兵,

数据中心运维管理系统解决目前运维难题!

在数据中心生命周期中,数据中心运维管理是数据中心生命周期中最后一个.也是历时最长的一个阶段.数据中心运维管理系统就是为提供符合要求的信息系统服务,而对与该信息系统服务有关的数据中心各项管理对象进行系统的计划.组织.协调与控制,是信息系统服务有关各项管理工作的总称.对于很多数据中心来说,保障和提高数据中心运维管理绩效是现在数据中心亟待解决的问题. 教据中心建设作为一种战略投入基本上已经形成共识,但是在巨额的投入后仍面临着种种问题与风险,面临着数据量急速膨胀,场地严重不足,运营成本高昂.能耗大.安垒

云运维管理服务引领企业IT运维新理念

IT监控与运维管理是用户保障业务系统正常稳定运行的必要手段,是用户业务系统的支撑工具.随着IT建设的不断深入和完善,计算机硬软件系统的运行维护已经成为了各行各业各单位领导和信息服务部门普遍关注和不堪重负的问题. 本人在IT监控与运维服务管理领域耕耘十五年,从ITIL服务体系到SLA服务等级协议等理念的引入见证了IT运维管理服务领域的成长历程.IT运维管理发展到现今的水平还是存在着诸多的矛盾与问题,伴着IT在企业中的作用日益明显,IT建设和IT运维同时成为了企业效率的加速器.基础架构平台和软件系统

ITGo虚拟化运维管理平台大数据版简介

ITGo虚拟化运维管理平台是北京万合鸿瑞科技有限公司研发的一款基于VMware vCenter虚拟化软件的运维监控管理产品,采用大数据分析和智能化运维(AIOps)等技术,对虚拟化的各种运维数据进行有效的监控.管理和分析,保证云计算/虚拟化技术的数据中心的高效稳定运行,优化系统资源使用,节省IT设备投资.产品在运维过程的作用如下: 事前规划:通过各种合规性和运维最佳实践的检查发现云计算/虚拟化环境存在的各种隐患,及时处理做到防范于未然. 事中控制:直观呈现数据中心的运维热点信息,快速定位和解决出

云计算如何保障IT运维管理的安全

在IT运维管理上,每个企业都有自己的管理方法,自从云计算的诞生之后,为企业高效运营带来了更多的帮助,在信息安全方面,保障所有操作有据可查,在高效IT运维管理方面,进而提高企业整体管理效益,同时提高客户满意程度. 随着云计算在中国的迅速发展,与云计算相关的应用也越来越落地.在协助企业提高IT运维管理效率.提升管理效率,还可以固化IT运维管理流程,保证 服务的可靠性以及企业信息安全的稳定性都表现出前所未有的优势,云计算所提供的也不仅仅是一种节约成本且便捷的IT管理方式,更是一种能够协助企业完成从 小

大数据教你IT运维管理产品选择,专业化or平台化能否兼具?

IT部门在进行IT运维产品选购时,虽然不是什么纠结的事,但是没有选择好,对于你以后在公司的运维工作生活将会寝食难安,你再后悔当初选购时没有生死决择已经晚了,所以在初期会有一个大方向需求,我综合多年和客户沟通需求大数据平台分析,会告诉你在进行IT运维管理时,应该使用什么类型的产品? 那么我们首选的一个标准是专业,所谓的专业主要有两层意思,一是产品在某一领域具一定的权威,专业解决某一应用,比如现在一些IT运维产品单独的机房监控.单独的虚拟机,用户如果管理多个业务需求,就得购买安装多个这样的单独应用系

VMware交付的软件定义的数据中心 - 运维管理

上一篇,我介绍了VMware交付的软件定义的存储产品,Virtual SAN和vCenter SiteRecovery Manager,本文就详细描述VMware交付的数据中心管理和自动化产品组. 数据中心管理和自动化 在前面几期我详细描述了VMware交付的软件定义的计算.网络和存储,细心的读者可以发现,如果数据中心的计算资源.网络资源和存储资源都被虚拟化后,IT部门可以更加灵活而弹性的控制数据中心的各种资源,为业务部门提供更好的支持和服务.但是,这也给IT部门对于数据中心的管理提出了更大的挑