互联网模式的企业如何运维IT系统(一)

难、难、难,不少人都摇头,确实因为实际困难太多,不确定因素太多,用户访问的高峰期不好预测,用户的访问偏好要事后才能分析,突发新闻或事件或帖子让峰值突然出现,企业的资源设备有限,各软硬件的疲劳期不好预测,每个业务系统都对维护有高要求,有时只能顾一部分,遇到突发事件,各领导电话和指示不断等等,确实是一件不好干的活,今年刚过去的春节抢红包这个热点顺利通过,应该为这些节假日坚守岗位的运维人致敬,他们到底是怎么做的呢,看看事件整个过程:2015年微信红包,除夕摇一摇总次数110亿次,峰值1400万次/秒,8.1亿次每分钟,微信红包收发达10.1亿次!惊人数字的背后,腾讯是怎么支撑的,今年微信红包方式与去年用户与用户之间互发红包相比,摇红包的方式对业务量来说是一个极大的爆发,光是除夕10:30送出的一波红包就达到了1.2亿个,已经是2014年除夕夜峰值的4800倍之巨(2014年峰值每分钟被拆开红包数量仅2.5W个)!

困难是显而易见的,但难点在哪呢,微信团队总结下来有三大难点:快——如何保证用户快速摇到红包?准——如何保证摇到的红包能成功拆开?稳——如何保证拆开的红包能分享出去?

大量用户在同一时间摇红包,瞬间产生每秒千万级的请求,这个量级的请求如果不加以疏导处理直接到达后台,必定会导致后端服务过载甚至崩溃。上文中除夕当天后台监控数据曲线便能说明一切——在前台重重的分流减压下,后台服务器负载仍然瞬间飙升十倍以上。

要保障提供的IT服务让大多数用户满意,我以为微信(社交网络事业群)做了以下功夫:

1.组织保障,组成项目组式的混合保障人员组,有红包策划推广人员、开发人员、中间件及系统软件人员、网路硬件维护人员,当然还有通盘全局的负责人。

2.厘清了各业务的重要等级,非重要等级为微信,特别是给摇红包让路。

3.所有人员懂业务,清楚目标和任务要求。

4.事先应有充分的策划和演练,关键节点优化和重新设计,如微信团队既定的方针,有损服务,柔性可用,大系统小做。关于这个微信团队有自己的阐述,这里不再赘述。

5.有了应急预案和备份措施。

6.在可能的情况下公司提供一定的冗余资源。

7.加强对用户的宣传教育,让用户有一定心理预期,并可以理解。

其实就是做到了“科学化、透明化、人本化”的运维。总之,为他们点个赞。

时间: 2024-08-05 06:43:04

互联网模式的企业如何运维IT系统(一)的相关文章

互联网模式的企业如何运维IT系统(二)

从上面例子可以看出互联网企业的运维特点: 1.IT运维与IT运营不可分,是以创意或服务为导向,以运营为基础的运维: 2.需要团队或复合型人才: 3.强调资源有限原则下的优化与维护: 4.强调准备与预案: 5.强调快速诊断与解决问题: 6.分清层级,强调必要时候的重点保障. 互联网企业多数不像传统企业那样IT需求.软件开发.IT运维可以是三波人,互联网企业更像集团化作战,希望是一个完整的方式,从创意策划.到开发.运营和运维一条龙服务,当然也可以有第三方服务,但统一指挥,他的运维工作还是在"科学化.

企业Linux运维几百个重点面试题汇总(持续更新)

目录: 第一部分:合格linux运维十五个必会原理知识(老男孩教育出品) http://user.qzone.qq.com/49000448/blog/1426386594 第二部分:合格linux运维必会MySQL 实战面试题近百个(老男孩教育出品)http://user.qzone.qq.com/49000448/blog/1427333863 第三部分:企业优秀运维人员20道必会iptables面试题 数十个(老男孩教育出品)http://oldboy.blog.51cto.com/256

某互联网上市公司基于 Golang 的运维基础框架

主题:某互联网上市公司基于 Golang 的运维基础框架 目录 服务器监控系统 自动化部署系统 功能展示 高可用控制系统的演化 高可用调度系统 资源定位系统 整体架构 强一致,高可用设计 一点儿心得 主讲师:PC 豆瓣.百度.360.第四范式 知乎<面向工资编程> Overview 监控系统 自动化部署系统 标准化的上线包,流程化的上线系统 Function Points 面向服务上线 一键部署及回滚 详细的部署统计信息和历史 Window/Linux 全平台支持 控制系统 memcached

怎么做好企业IT运维工作

维的工作层次来分,又分为硬件运维.桌面运维.系统运维.数据库运维和应用运维.他们运维的设备,小的从个人电脑,大的到数以亿计的高精尖计算设备(比如 大型机 ). 根据公司 IT 系统规模的不同,运维团队小至1 人,大至数百人.每晚通宵达旦,为 IT 系统保驾护航. 有句行话“累成狗,起的比鸡早,睡得比猪晚”.就这样还是种种抱怨和不满.我对运维总结成了两句话:“技术只是手段,业务才是王道”. 运维的好坏评定标准其实就是你给公司及业务带来了哪些价值及哪些影响.通过这些方法让运维变得更灵敏.让运维人员更

Open-falcon运维监控系统——微信接口二次开发

1.Open-falcon运维监控系统简介 OpenFalcon是一款由小米运维团队从互联网公司的需求出发, 根据多年的运维经验,结合市面上使用的一些运维监控系统的使用经验和反馈,开发的一套企业级.高可用.可扩展的开源监控解决方案.简单了使用一下Open-falcon运维监控,结合使用过的zabbix,cacti,nagios来说,觉得有以下几个优点: 支持用户主动push,可以结合一些业务需求采集数据,同时也支持用户自定义的插件. 支持策略模板,模板继承和覆盖,多种告警方式,支持callbac

运维知识系统和分类

运维分类: 机房运维(负责设备上下架.巡检.报修.硬件监控) 基础设施运维(系统初始化.网络维护) 基础服务运维(内部DNS.负载均衡.系统监控.资产管理.运维平台)包含运维开发 系统运维(架构层面的分布式缓存.分布式文件系统.日志收集.环境规划(测试.开发.生产).架构设计.性能优化) 安全运维(整体的安全方案.规范.漏洞监测.安全防护等) 应用运维(业务熟悉.服务部署.业务部署.版本管理.灰度发布.应用监控) 监控运维(7*24运维值班.故障处理) 转自:https://www.unixho

ylbtech-KeFuYunWei(服务运维考核系统)-数据库设计

ylbtech-DatabaseDesgin:ylbtech-KeFuYunWei(服务运维考核系统)-数据库设计 DatabaseName:KEFUYUNWEI Model:Admin 用户后台管理数据设计 Type:管理软件 Url: 1.A,数据库关系图(Database Diagram) 返回顶部 1.B,数据库设计脚本(Database Design Script)返回顶部 use master go -- =======================================

京东云数据库 RDS助力企业便捷运维

iPhone6发布那年,京东在国贸等商圈送货最快速度数分钟,包括从下单到送达.这是一个极端的富含营销因素例子.即便如此,常态来看,隔天到货的这种业务模式,也是基于同样的支撑:营销业务.物流业务,大数据业务,数据平台和数据. 京东云在集团中担负着对外助力企业发展的责任.因为京东云的整体产品线确实特别丰富,因此呢,我今天特别把比较有代表性的数据体系提出来,管中窥豹. 希望在有限的篇幅内,围绕着数据生态,跟大家进行以下话题的交流:京东数据生态的主要涉及的范围有哪些?为什么京东数据生态可以主力企业架构的

企业自动化运维

from http://bbs.chinaunix.net/thread-3779206-1-1.html 系统安装是交给IDC人员,最小化安装有标准规范Nagios.Cacti生产用的最多ControlTier.Zabbix.Puppet--这些折腾和测试过目前批量改密是用的脚本主机统一管理和登录是买的第三方产品自己内部用python开发了一套运维管理系统php开发数据库备份检查工具 +++++++++++++++++++++++++++1.不部署(或者无需刻意部署)agent的ssh,ssh