如何有效进行IT运维管理

IT运维中的不良习惯

(1).治标不治本。IT设施故障往往是突发的、随机的、不可预测、不可控制的.也很难自动提醒和警告。运维和管理人员成天处于高度紧张状况,节假日也提心吊胆。一旦发生故障,往往手忙脚乱来不及仔细多方面观察、分析原因,也无法很快准确定位。为了尽快恢复业务,只能采取重启、清除等不可回朔操作。这种治标不治本的维护措施,不能根本解决问题,类似现象仍然可能再发生。

(2).没有排错记录。我们的很多IT人员没有排错记录的习惯,这样当事后查找原因缺乏当时记录,就算找到点痕迹也缺乏进一步分析数据。因为故障不能再现,很难有准备地捕捉有效信息。而要在生产环境模拟故障业务几乎不允许。开发环境又很难模拟和再现。少量片面的系统日志很难看出问题症结,缺乏自动实时捕捉问题关键点并忠实记录工具。造成问题发生后无法回朔,问题解决无法找到头绪。

(3).缺乏统一的规范要求。出现同题时解决办法因人而异,缺乏方法和工具,无法制定统一的规范要求。在专家解决问题的经验缺乏记录、整理、积累和继承。从保障稳定看,必须高价保持足够专业运维人员。工作安排松了不利于人员发展和稳定,但安排太紧又无法保证及时响应和解决问题。

(4).应对危机太被动。对反映的问题和解决状况缺乏统一管理和跟踪,全靠个人素质和责任感。无法衡量、统计员工的业绩贡献,也无法发现哪些问题最影响系统稳定.造成问题的因素是在积累还是在减弱,更缺少预警提醒机制.只能被动无序地等问题发生甚至很严重了才意识到。

IT运维管理的内容

IT运维管理是指单位IT部门采用相关的方法、手段、技术、制度、流程和文档等,对IT运行环境(如硬软件环境、网络环境等)、IT业务系统和IT运维人员进行的综合管理。如果进行细分的话,应该包括以下几个方面:

(1).设备管理:对网络设备、服务器设备、操作系统运行状况进行监控和管理;

(2).应用/服务管理:对各种应用支持软件如数据库、中间件、群件以及各种通用或特定服务的监控管理。如邮件系统、DNS、Web等的监控与管理;

(3).数据/存储/容灾管理:对系统和业务数据进行统一存储、备份和恢复;

(4).业务管理:包含对企业自身核心业务系统运行情况的监控与管理和对于业务的管理;

(5).目录/内容管理:该部分主要对于企业需要统一发布或因人定制的内容管理和对公共信息的管理:

(6).资源资产管理:管理企业中各IT系统的资源资产情况;

(7).信息安全管理:企业安全组织方式、资产分类与控制、人员安全、物理与环境安全、通信与运营安全、访问控制、业务连续性管理等;

(8).日常工作管理:该部分主要用于规范和明确运维人员的岗位职责和工作安排、提供绩效考核量化依据、提供解决经验与知识的积累与共享手段。

IT运维管理方案

在以上内容的基础上,提供一套IT运维管理的解决方案,以供大家借鉴。

(1).建立IT运维管理服务平台

IT运维管理服务平台帮助IT部门内部各专业部门以单点联系窗口的形式对外服务,业务部门不必了解IT部门内部的运作流程。只需将故障报告给IT部门服务窗口的一线服务台人员即可。由一线支持人员对故障进行分类以电子工单方式派发到相关的专业部门或相关人员处进行及时处理和响应,并向用户及时进行反馈。用户对不同专业部分的咨询、问题和投诉都通过该窗口进行,以避免用户与各级支持人员直接联系带来的种种弊病。如出现不同问题找不同支持人员、找不到人、问题得不到及时反馈和解决等等现象。

(2).实现IT监控和统一展现

面向业务监控和统一展现能够评估各种IT基础设施和服务在设定的某个时段是否发挥其应有的功能,同时实现对网络、系统及应用服务等全方位监控的统一呈现。统一告警平台汇总、压缩和关联各种设备或服务的告警信息,实现统一监控和展现。这样,各专业部门可以协同作战发挥更大的作用。

(3).构建科学、规范的服务流程管理

根据企业的实际组织架构,把故障支持划分不同的类型和等级,形成梯队化的故障处理流程,避免出现资源浪费。并且在每个级别的故障事件处理中,通过自动跟踪机制实现故障的自动跳转和升级,从而确保不同紧急程度的故障得到及时的响应和处理,帮助企业建立起一套科学规范的1T服务管理流程。企业环境下首次或者突发出现的事件、告警或故障通过事件工单进行处理;而对于多次出现、深层次、临时恢复的告警事件,可通过问题管理进行解决,以便于协调优势资源攻关和彻底解决。通过层次化、标准化、科学化的管理,量化的评估每个技术人员的工作能力,减少了故障对业务的影响,避免出现责任不明晰,响应不及时的问题,提高客户和用资源的使用更加合理。

(4).实施严谨、高效的变更审批流程

为基础设施的变更提供快速的电子通道,减少变更过程中出现管理失控的风险和不必要的人为干扰,缩短审批时间,提高变更实施的效率。严谨的变更管理确保在变更实施过程中使用标准化的方法和流程,尽快和有效地实施变更,从而把由于变更所导致的事件对IT服务的影响减小到最低,同时改善了公司的日常运作。它包括一套完整的变更管理功能,包括变更的发起、审批、影响评估、派发实施等功能。以工单的形式在各部门和责任人之间流转。

(5).IT资产配置完善管理

为企业建立完善的配置基线,为企业建立一套详实的配置管理数据库,小到主机内存、设备端口,大到网络结构、部门或公司的建制,从有形的资产到无形的应用系统、人力资源等都能以电子方式准确记录并长期保存。同时,资产配置管理与服务的事件、问题和变更流程相关联。如变更流程审批完成之后增减的资产配置信息,将自动在资产配置管理数据库中实现同步更新。

对IT运维实施有效管理,不仅能够解放IT人员提高其工作效率,而且也是对企业业务部门的有力支持。

时间: 2024-10-02 08:19:27

如何有效进行IT运维管理的相关文章

shell + ansible + gateone 自动化运维管理

目的: shell + ansible + gateone 自动化运维管理:最少的人工干预下,结合运用脚本与第三方工具,保证业务系统7*24小时高效稳定运行: 1.安装环境涉及软件 本次操作系统:Centos 6.5 32/64 进行测试 项目安装软件 版本 Python 2.6.6 Tornado 2.4.1 2.环境部署 2.1 安装依赖包 yum install -y python python-pip gcc python-devel setuptool python-pam opens

IT运维管理7要

IT运维管理起源于IT基础设置建设之初,是对处于运行状态下的物理网络,软硬件环境.业务系统等进行维护管理,我们把这种IT管理的工作简称为IT运维管理. 具体我们可以大致概括为以下七部分内容: 第一.设备管理:对网络设备.服务器设备.操作系统运行状况进行监控,对各种应用支持软件如数据库.中间件.群件以及各种通用或特定服务的监控管理,如邮件系统.DNS.WEB等的监控与管理; 第二.数据/存储/容灾管理:对系统和业务数据进行统一存储.备份和恢复; 第三.业务管理:包含对企业自身核心业务系统运行情况的

VMware交付的软件定义的数据中心 - 运维管理

上一篇,我介绍了VMware交付的软件定义的存储产品,Virtual SAN和vCenter SiteRecovery Manager,本文就详细描述VMware交付的数据中心管理和自动化产品组. 数据中心管理和自动化 在前面几期我详细描述了VMware交付的软件定义的计算.网络和存储,细心的读者可以发现,如果数据中心的计算资源.网络资源和存储资源都被虚拟化后,IT部门可以更加灵活而弹性的控制数据中心的各种资源,为业务部门提供更好的支持和服务.但是,这也给IT部门对于数据中心的管理提出了更大的挑

CPR式的IT运维管理,我们不要!

什么是CPR式的IT运维管理?CPR(Cardiopulmonary Resuscitation),是医学术语"心肺复苏"的简称,是指心搏骤停一旦发生,就必须立即在现场进行心肺复苏CPR,以挽救患者的生命. 想想我们的IT运维场景,是不是也会经常出现IT运维式的CPR呢?当客户先于我们发现运维事件时,我们的运维人员除了迅速变身为IT医生,前往现场实施CPR式的运维处理外,剩下的就只有尴尬和忐忑了. 作为一个IT运维人,闲暇时我总是问自己:从事运维有没有前途? 论职位,在一般企业最高级别

8个方面谈IT运维管理

IT运维管理的概念应该源于信息系统的生命周期,通常信息系统要经历规划.设计.开发.实施(部署).测试(验收).运行.废止等阶段,每个阶段都有相应的工作内容,运维管理就是运行阶段的主要工作. IT运维管理,是指单位 IT 部门采用相关的方法.手段.技术.制度.流程和文档等,对IT 运行环境(如硬软件环境.网络环境等).IT 业务系统和 IT 运维人员进行的综合管理.IT 运维管理主要包括8个方面的管理内容: 1·设备管理:对网络设备.服务器设备.操作系统运行状况进行监控和管理: 2·应用/服务管理

Linux小课堂开课了(9)-Centos7日常运维管理

Centos7日常运维管理 1,查看系统配置,进程,I/O,网卡流量使用w可以查看系统的状态,当前时间,系统启动时间,登录用户,从哪个IP登录的,系统的负载值.使用uptime查看系统的负载值使用iptop,可以具体查看哪个进行使用的I/O较多,需要安装一下[[email protected] ~]# yum -y install iotop[[email protected] ~]# iotop使用cat /proc/cpuinfo查看系统配置使用vmstat可以查看CPU,内存,虚拟磁盘,交

Pexpect:系统批量运维管理器!!!

项目背景: 为了更好的实现我们企业的自动化运维,我们需要对pexpect模块有清晰的了解和使用能力. 实验环境: vmware workstation 11 centos6.5的系统下 pexpect服务器:192.168.0.26 远程主机:192.168.0.14 SecureCRT (ssh远程连接软件) 软件介绍 Pexpect 是一个用来启动子程序并对其进行自动控制的纯 Python 模块. Pexpect 可以用来和像 ssh.ftp.passwd.telnet 等命令行程序进行自动

zookeeper 运维管理

zookeeper 运维管理(转) link: http://blog.163.com/[email protected]/blog/static/963698182012928114335375/ 2012-10-28 11:43:35|  分类: zookeeper|字号 订阅 学习借鉴 1.部署 本章节主要讲述如何部署ZooKeeper,包括以下三部分的内容: 1. 系统环境 2. 集群模式的配置 3. 单机模式的配置 系统环境和集群模式配置这两节内容大体讲述了如何部署一个能够用于生产环境

Mysql运维管理-MySQL备份与恢复实战案例及生产方案17

1.全量备份与增量备份 1.1 全量备份 全量数据就是数据库中所有的数据,全量备份就是把数据库中所有的数据进行备份. 备份所有库: mysqldump -uroot -p123456 -S /data/3306/mysql.sock -F -B –A gzip >/server/backup/mysq_backup_$(date +%F).sql.gz 备份一个库: mysqldump -uroot -p123456 -S /data/3306/mysql.sock -F -B linzhong