运维难度“更上一层楼”——不存在的

本文编辑:玲子

数据中心最怕什么?停电、网络受损…数据中心运维人员最怕什么?宕机、不常规故障、升级扩容…

随着数据中心建设的规模不断扩大,新技术迭代更新,承载数据中心业务的网络变得异常复杂。为了适应数据中心业务的发展,数据中心网络也在不断更新与变化,给运维工作带来了极大的难度。数据中心宕机事故也难免发生,这不仅增加了数据中心运维人员的工作量,更重要的是给数据中心带来了巨大的损失,就连全球知名的互联网巨头也经常享受这般“待遇”。

 

互联网巨头宕机不断,运维工作成难题

3月3日凌晨,阿里云出现宕机故障,导致购买阿里云服务的企业网站或互联网公司APP无法正常使用。一大波程序员、运营和运维不得不从被窝里爬起来干活。针对阿里云此次宕机,58高级架构师沈剑称,事故持续了3个小时左右,事后观察了2个小时。

5月3日凌晨3点43分开始,微软Azure在全球范围内出现了大面积宕机,整个过程持续了将近2个小时,直到5点30分才完全恢复。受Azure宕机影响,包括Microsoft 365,Dynamics和DevOps在内的微软主要服务均出现使用问题。

6月3日凌晨2点58分开始,谷歌在全球范围内遭遇了大规模中断,包括Gmail、YouTube和Google Drive在内基于谷歌云架构服务的诸多谷歌服务均受到影响。用户访问谷歌服务出现各种错误提醒,并且阻止用户访问电子邮件、上传YouTube视频等。

6月25日消息,亚马逊在官网证实云计算服务出现了宕机,导致部分网络用户和多个AWS区域的网络连接受到了影响。出现故障的节点在AWS美东1区,共计33个服务受到影响,其中9个处于完全中断状态。

 

宕机事故频发,运维难度“更上一层楼”

一次次宕机事件证明了数据中心运维工作的重要性,但似乎不能避免。如今随着科技的进步万物互联时代的到来,数据中心作为重要基础设施发挥着重要作用,虽然数据中心在国内的发展只有十多年的时间,但已经从只有UPS、空调和IT设备的普通机房时代,进入到囊括互联网、大数据、AI、云服务等全方位服务、动辄拥有数万机柜,自然冷、风墙、水下数据中心、液冷服务器等新技术不断被创造和应用的新时代。这样一来,运维管理面临着更大的挑战,运维难度也“更上一层楼”。

首先,超大规模的数据中心带来的人员、组织和效率的变化。以前万平米以内的数据中心,人工巡检一次2-4小时,现在数十万平米,需要更多的运维人员分布在不同的责任区,增加了管理的难度和成本;其次,电压等级提高,安全风险增加。以往运维人员接触的是低压,现在供电设备、发电机、冷机都是高压供电,维护安全要求提升;此外,规模集中,导致风险集中,事故影响更大。例如上文中谈到的数据中心宕机事故,导致全球大面积的服务和应用中断,损失惨重,因此运维管理的压力超前。

减少人为失误,提升运维管理的专业技能

据数据调查显示,数据中心的宕机事故70%是由人为失误造成的,因此在数据中心规模不断扩大的同时,运维人员要通过提升自身的技能和专业水平以应对数据中心意外事件的发生:

建立一套完备的人员技能评价体系,从多方面考核运维人员技能能力,能够有效帮助运维人员提高运维技能,促进运维人员主动学习自动提升。

运维经验在线学习,建立运维经验库,实现在线运维经验共享交流平台,提供运维知识在线实习和学习的渠道。

实操环境在线模拟,提供运维模拟实践操作环境,有效隔离操作风险,帮助快速提高运维实际水平。

理论技能在线评测,依托海量IT云平台组件题库,定期考核,随机出题,实现运维理论能力的在线实时自动测评。

实操技能在线测评,构建轻量化在线运维操作、在线编程环境,实现运维操作技能与研发技能的在线实时自动评测。

通过自动评测提升效率,实现运维理论技能与实操技能的在线科学自动评测,提高评测效率,确保能力客观公正的体现。

弥补人工运维不足,智能运维应运而生

如今,数字化时代已经到来,数据中心规模和容量都在成倍增长,随之而来的运维管理复杂度和难度也越来越大,从脚本运维、工具运维到平台运维演进至今,人力已接近极限,随即智能运维应运而生。如今更多的数据中心企业诸如腾讯、华为、京东等开始加大研发力度投入到智能运维的浪潮中来,将人工智能与运维结合,基于已有运维数据(日志、监控信息、应用信息等),通过机器学习的方法来提升运维效率,从而逐步取代人工的运维。相信未来数据中心将会越来越智能化。

原文地址:https://www.cnblogs.com/xiaoxiao998/p/11490986.html

时间: 2024-07-29 23:35:42

运维难度“更上一层楼”——不存在的的相关文章

Linux运维是什么?linux运维的基础知识

如果您对运维行业了解一些,应该会知道,现在的运维早已不是早年的"睡机房",往办公室打眼一看,分不清是运维攻城狮还是开发程序猿,但是,运维这行也是春天到了,今天Linux,明天云计算的,各种新鲜概念层出不穷,那么,Linux运维是什么?云计算运维又是什么? 现在我们谈运维,经常谈的就是海量这个词,当一个企业拥有几百台服务器的时候,可能更关注的是如何满足应用/业务需求,更多时候不必过多的关注架构.容量.扩展性这些,运维部门有时甚至沦为打杂部门.但是当一个企业拥有几万甚至几十万台的服务器这个

【51CTO学院三周年】-感谢恩师马哥让我成为Linux运维工程师

[51CTO学院三周年]学习.提升.感恩 --感谢51cto学院和恩师马哥让我成为Linux运维工程师   今天是学院三周年学院给了我很大帮助今天我也来写一下我的真实感悟心得.我是12年在网上无意搜索发现有个很好的IT互动网站叫51cto,当时记得还有个叫CSDN,但是对比了下感受还是51cto的氛围和功能更ok点,慢慢也喜欢上这个风格了.没事儿就看看新闻看看博文.收获也挺大的. 在学院成立,我就开始看一些视频课程学习,看过韩老师的windows.一次偶然机会看到马哥讲linux的课程,马哥讲的

运维自动化工具Cobbler之——安装实践

运维自动化工具--Cobbler实践 第1章 About Cobbler 1.1 Cobbler Introduction Cobbler是一个Linux服务器安装的服务,可以通过网络启动(PXE)的方式来快速安装.重装物理服务器和虚拟机,同时还可以管理DHCP,DNS等. Cobbler可以使用命令行方式管理,也提供了基于Web的界面管理工具(cobbler-web),还提供了API接口,可以方便二次开发使用.Cobbler是较早前的kickstart的升级版,优点是比较容易配置,还自带web

从传统运维到云运维演进历程之软件定义存储(三)下

上回书讲到了运维小哥的调优方法论(上),对于Ceph运维人员来说最头痛的莫过于两件事:一.Ceph调优:二.Ceph运维.调优是件非常头疼的事情,下面来看看运维小哥是如何调优的. 关卡二:部署调优关之调优(二) 难度:五颗星 优化方法论 通过对网上公开资料的分析进行总结,对Ceph的优化离不开以下几点: 硬件层面 硬件规划 SSD选择 BIOS设置 操作系统层面 Linux Kernel 内存 Cgroup 网络层面 巨型帧 中断亲和 硬件加速 Ceph层面 Ceph Configuration

[运维] 第一篇:数据中心运维模型之我见

从实际经验来看,每个企业的数据中心运维上都不会是十全十美的,因为毕竟企业业务发展是迅速的,对IT的要求相应也是也是越来越高,越来越复杂,所以无论是在运维团队架构上,还是在具体的管理层面上,尽管现实空间有限,但都有很多值得调整的空间和余地,且听我道来!         先看看这张运维模型,了解一下企业运维到底包括了那些东西:        企业运维包括了四象限:人员.管理.工具和业务.对于人员,通常企业有两种结构:一种是功能性驱动,比如机房维护团队.IT基础架构运维团队.应用维护团队等:另一种是管

[运维] 第六篇:告警是数据中心运维的核心驱动力!

告警事件是数据中心运维的核心驱动力,我们做的所有运维工作都是要减少业务出现故障的概率,提供更高的业务可用性.不知道大家是否认可这句话?还是看这张图,通过这张图,把这个问题讲透:        作为综合事件管理平台自身,需要有这样几个部件:1 丰富事件接口.作为数据中心的核心驱动引擎,需要有丰富的事件接口可以将各种IT事件,甚至非IT事件接收过来,常见的接口有rest.web service.snmp.soap.socket.xml.文本.jdbc等.因为面对的对象不同,所以能够使用的方式是完全不

在马哥linux运维学院学习心得

题目:在马哥linux运维学院学习心得 姓名:谭龙 班级:M18 学号:26 时间:2016-02-29--2016-06-02(正常毕业时间预计在7月中上旬)   正文: 个人基本情况: 我是一名在校的即将毕业的大四学生,毕业时间为2016.7.专业为矿物加工工程专业,纯正的四川-广安人(邓小平故居就在那).因找不到工作,加上自己也不知道干什么,在堂弟的推荐下,来参加了马哥linux运维学院的学习:怀揣着一颗对计算机懵懂的心,开始涉足从未接触过了linux. 个人收获与心理变化: 在一开始接触

18页PPT带你深度解读运维自动化【转】

来自地址:[http://www.opsers.org/tech/18-pages-ppt-show-you-depth-interpretation-operations-automation.html] 说实话,一个运维团队的运维能力如何,其实看一个自动化管理系统便知! ********文章较长,索引目录如下******* 一.概述 二.运维自动化的三重境界 三.运维自动化的多维解读 ******第一.基于应用变更场景的维度划分 ******第二.基于系统层次的维度划分 ******第三.基

【解决方案】IDC、MA服务商IT运维监控解决方案

       文章摘自 pigoss 官网 http://www.netistate.com  如需转载,请标明出处! IDC与MA服务商现状 目前,大部分传统IDC服务商仍然处于卖场地.卖资源的阶段,通过租赁有限的场地和资源,同质化竞争和低价竞争愈演愈烈严重.如何为用户提供差异化增值IT运维服务成为新一代IDC的竞争目标. 同 样,大部分传统MA服务商的经营模式为提供维保服务,成熟.有经验的工程师便成为了众多MA服务商的重点争夺人才,人力成本不断攀升.技术人员巨大的人才 缺口,注定了专家级工程