如何进行大促备战---大促备战TODO

原文链接

背景:

在阿里经历过3年双11大促,从事云相关工作之后,发现经常会有各类云上客户面临大促护航需求,借此文总结下常规的大促备战都需要做些什么,我们需要从哪些方面入手去备战,尽量避免遗漏,做到大促平稳顺滑。

大促备战该从何入手,具体做些什么

1)第一阶段:业务梳理,架构整合,流量预估

1.1 业务梳理

在备战大促的过程中,我们首先需要对我们的整套系统所有应用进行梳理,了解哪些应用会面临大促的压力,哪些与大促无关;哪些是核心应用,需要重点保障,哪些是非核心应用,可接受降级或短时间不可用;理清这些应用之间的关联关系,有哪些上下游依赖,中间件等;

1.2 架构整合

一套在线系统一般都是由多个团队负责的,包含基础在线服务、离线数据、基础中间件、网络等;但是在大促备战过程中需要整理出整体的业务架构大图(可分成在线离线),包含各个应用,上下游依赖,中间件,所在的网络环境,带宽使用量,负载均衡设备,数据库,在线数据采集、订阅,离线数据处理等所有环节;只有把整个架构都搞清楚了,才能针对性的进行风险评估、容量规划、预案准备;

如果只规划单个的容量,忽略了上下游以及其它依赖的承载能力,整个系统的任何一个环节出了问题,都会最终传导到系统入口,导致服务异常;

1.3 流量预估

在大促准备初始阶段,都需要根据以往的流量情况以及运营的推广力度来评估此次大促的流量峰值;然后根据峰值流量进行压测,明确当前系统的承载能力,准备好优化和扩容的方案;

如果由于业务发展不规律,流量增长非线性,没有有效的历史数据来协助预估的话,那么也需要有一个理想承载能力的预估,以此作为容量规划的目标;

峰值的流量来源一般需要考虑几个方向:

1)由于秒杀、红包活动、整点峰值等导致的自然流量高峰;

2)由于运营主动push消息导致的流量瞬时高峰;

建议:涉及到主动push的机制,建议一般都设置推送步长,逐步推送到峰值,避免瞬时流量高峰导致的一系列类似缓存失效,类脉冲攻击流量导致连接异常等情况;

3)由于上游传导过来的峰值流量;

2)压测&优化&扩容

2.1 压测准备

压测是整个大促备战过程中最核心重要的环节,贯穿整个备战的始末,需要通过压测才能摸清系统的承载能力,然后不断优化扩容,重复压测直到达到预估的承载能力。

压测简单分为线下压测和在线压测:

1)线下压测

指未接入真实流量的线下环境,保持与生产一致的机器比例,可以通过tcpcopy方式复制生产流量,只可取得链路瓶颈和单模块的压力,非主力压测方式,因为环境和生产不一样,网络环境、上下游依赖等都不一样,压测出来的结果也会有差异;

2)在线压测

在线压测是指直接使用生产系统进行压测,能保证压测结果即是最终的系统承载能力;如果系统有充分容灾能力,可以切走一个可用区或region流量,然后再直接在生产系统上进行压力测试;如果没有足够的冗余,也可以选择在夜间流量地缝时进行,将可能的影响降到最低;

2.2 优化&扩容

一旦通过压测发现系统性能瓶颈,优先考虑能否进行优化,根据压测瓶颈时系统资源使用情况,充分利用内存分配优化、线程池调整、锁机制优化、异步化等方式进行业务优化。次之再考虑扩容方案,云上业务可考虑ESS或提前预约所需资源或配置升级。优化和扩容结合压测反复进行;直到系统可承载能力最终达到业务预期;

2.3 预案

预案不仅是大促不可缺少的一环,日常系统运维过程中其实也是必不可少;大促预案分为前置预案和应急预案;

1) 前置预案

指在大促峰值流量之前执行的提前降级预案,无损或者预期范围内的。例如提前关闭写io频繁的日志写入,混部场景中调整调度策略避免调度到高压模块,提前关闭一些生产高消耗的策略等;

2)紧急预案

是指在流量超出预期或者链路中单个应用性能异常等情况下执行的应急预案,旨在快速恢复系统服务能力;入口的限流,应用策略降级等,可能的情况下优先采用无损的降级预案;

2.4 大促中

大促实际备战过程中,需注意:

1)提前预案的操作,设定紧急预案执行的决策人、执行人和double check负责人,尽量不进行非预期的操作;

2)峰值时段流量、系统表现相关数据采集;

3)特别注意主动的数据推送,活动安排等导致的流量高峰,注意调整推送步长;

4)系统各种大小异常情况信息采集

相信做好了压测和容量准备,模拟了各种压测和问题场景,大促肯定能平稳过渡;

3)总结&沉淀

每次大促都是一次难得的经历,不管是对系统还是对开发运维人员,做好总结和沉淀能够对后期日常的系统维护以及以后的大促提供非常宝贵的经验;

1) 压测方案的沉淀;

2) 系统优化方案的沉淀;

3) 演练过和执行过的预案及场景整理;

4) 峰值流量、对应系统资源消耗及扩容数据收集;

5) 其它相关业务重要数据沉淀

原文链接

时间: 2024-11-06 13:40:46

如何进行大促备战---大促备战TODO的相关文章

【大数据】大数据时代--网络数据与科学的时代

大数据_大数据时代_大数据概念_网络大数据 随着大数据时代的来临,大数据也吸引了越来越多的关注.网络大数据(http://www.raincent.com)整合了大数据,大数据概念,大数据处理,大数据分析,cdn,cdn加速,idc,网络测量,网络监测,网络安全测量,网站性能监测,行业分析报告,行业研究报告,免费行业报告等服务为一体,力争打造中国最大的网络大数据中心. 这两个词最早出现是在上世纪90年代.按照当时的解释,大科学时代主要是指单打独斗的时代结束了,要搞集团军式的科研.也有一种说法是,

【网络大数据】大数据时代:网络营销能否颠覆传统?

大数据分析_大数据技术_大数据处理_云计算数据中心 网络大数据(www.raincent.com)整合了大数据分析,大数据处理,大数据技术,云计算数据等服务为一体,力争打造国内数一数二的网络数据处理平台. 众所周知,构成世界的三大要素为物质,能源和信息.由于互联网的迅猛发展,一场人类历史上从未有过的庞大商业变革正发生在我们面前,那就是网络营销+大数据时代. 千思传媒根据美国马萨诸塞州的EMC公司的调查报告表明,2011年全球被创建和被复制的数字总量是1.8ZB,相当于两千多亿个时长为两小时的视频

.git文件过大!删除大文件

在我们日常使用Git的时候,一般比较小的项目,我们可能不会注意到.git 这个文件. 其实, .git文件主要用来记录每次提交的变动,当我们的项目越来越大的时候,我们发现 .git文件越来越大. 很大的可能是因为提交了大文件,如果你提交了大文件,那么即使你在之后的版本中将其删除,但是, 实际上,记录中的大文件仍然存在. 为什么呢?仔细想一想,虽然你在后面的版本中删除了大文件,但是Git是有版本倒退功能的吧,那么如果大文件不记录下来, git拿什么来给你回退呢?但是,.git文件越来越大导致的问题

大神节,大神为什么这么拼?

上周何玺提到,大神手机将大神粉丝节定在"520"是一个比较机智的做法.通过它,大神手机不但巧妙的将自己与年轻人绑在了一起,还可以借此扩大自己的影响力,带来看得见的经济效率. 继上周五@大神手机官方微博曝光将在520大神节期间派发1.04亿元红包券后,@大神手机官方微博周末再次曝光大神节促销内容:三天520元秒杀大神X7,300台大神F2特价抢购等活动. 这个大神节,大神手机为什么这么拼? 一.市场竞争激烈 据市场研究机构IDC公布的2015年第一季度<IDC全球手机季度跟踪报告&

【网络大数据】大数据时代:数据融合或将发挥更大价值

大数据_大数据时代_大数据概念_网络大数据 随着大数据时代的来临,大数据也吸引了越来越多的关注.网络大数据(http://www.raincent.com)整合了大数据,大数据概念,大数据处理,大数据分析,cdn,cdn加速,idc,网络测量,网络监测,网络安全测量,网站性能监测,行业分析报告,行业研究报告,免费行业报告等服务为一体,力争打造中国最大的网络大数据中心. 随着互联网技术的发展.全媒体环境的全面形成,"大数据"已成为新的时代主题词.海量级的数据催生了海量的搜集.存储.管理.

蔡先生论道大数据之一 , 大数据由来

我记得早在2001年,Gartner公司的一份研究报告首次出现"大数据(Big Data)"概念的提法.但是到今天业内对"大数据"一词的定义说法不一,但越来越多的研究机构和网络媒体开始关注它.大数据正成为继云计算之后新的热词.同云计算一样,大数据虽然也看不见摸不到,却与今天的IT技术发展如影随形,已经深入到当前的信息生产.加工.交换过程之中,我们已经享受到的某些信息服务,如在社交网站看到的是自己想关注甚至是感兴趣的广告而看不到不想关注的广告,这其实是大数据技术的功劳

苹果官网那个“比更大还更大”是什么狗P翻译,我不服……

每一次苹果发布会都是两岸苹果官网的一次翻译竞赛. 大陆苹果官方又现神翻译,iPhone 6的宣传语是"比更大还更大". 向北也练练手,翻译了几个.你还有更好的翻译吗?

大数据有多大?关于大数据的三大误区

关于大数据的三大误区 随着整个行业对大数据的兴趣越来越大,我最爱的话题之一,我在2013年做过的大数据的公众演讲超过我职业生涯中的任何往年.我在行业大会.活动,大学以及EMC内部共做过许多次演讲.在这些演讲中一次又一次地接触到了一大堆关于大数据的评论,提问以及错误的理解.我相信将我听到的分享给大家会很有用. 以下是对于大数据的三大误区: 1. 最重要的,是关于大数据本身的大小 大数据主要是数据的大小,因为大数据就是大的,对吗?其实,并不完全是.哈佛的定量社科学院的Gary King说.当然,如今

不要让大数据成大窥探

上段时间万维网之父Sir Tim Berners-Lee出席一活动,就互联网隐私.大数据谈了一些个人看法.他称,提高对用户隐私的保护,对互联网来说很有必要,因为人们有权看清他们的数据将如何被使用.他还表示,提供个人数据访问通道的机制可以促成"富数据"而非"大数据"的结果. 他以个人病例为例进行了说明.他说,个人病例应该能够让医生和亲人看到,但是肯定不应该让保险公司以及其他人看到.对于Sir Tim Berners-Lee的言论和观点,笔者是非常赞同的.借此也顺便&q