由Redis的hGetAll函数所引发的一次服务宕机事件

昨晚通宵生产压测，终于算是将生产服务宕机的原因定位到了，心累。这篇博客，算作一个复盘和记录吧。。。

先来看看Redis的缓存淘汰算法思维导图：

说明：当实际占用的内存超过Redis配置的maxmemory时，Redis就会根据用户选择淘汰策略清除被选中的key。

业务场景：用户通过微信入口来访问一个页面；

测试场景：通过多线程模拟定量的并发来访问页面服务；

涉及架构：springsession+Redis集群，容器部署；

问题描述：固定并发数压测10分钟，压测开始后半小时，Redis连接数激增，连接耗尽，服务重启；

处理逻辑：

①、用户通过入口页面访问服务时，springsession给每个用户创建一个session，将key存储在Redis中；

②、Redis默认配置每隔半小时，利用hGetAll函数遍历session-key所在的集合，将最近一分钟内要过期的key全部delete，释放内存；

宕机原因：

①、Redis是单线程处理，由于高并发压测，产生了百万级的key存储在set集合中，当hGetAll函数遍历集合删除过期session的key时，大量用户连接失效；

②、失效瞬间，Redis需要创建大量连接，如果TPS超过了设置的最大连接数，则Redis服务容器健康检查不通过；

③、通过选举，Redis集群主从切换时需要将master的数据复制到salve；

④、主从复制时，Redis定位区域buffer（软链接）超时，最终导致服务宕机重启。

优化方案：

①、选择Redis默认淘汰策略，每秒钟选择10次，每次不超过25个，即每秒钟淘汰≤250个key；

缺点：内存好用较高，需要通过横向扩展资源来应对该问题；

②、通过压测确定当前系统配置下的最大可处理阈值，通过网关限流、服务降级等措施来保障服务的稳定运行；

缺点：如果实际流量超过限流配置，则用户可能看到一些“友好界面”，用户体验不太好；

PS：在实际生产环境中，系统稳定性和可用性胜于一切！！！

由Redis的hGetAll函数所引发的一次服务宕机事件的相关文章

云计算之路-阿里云上：重启 manager 节点引发 docker swarm 集群宕机

为了迎接春节假期后的访问高峰,我们今天对 docker swarm 集群进行了变更操作,购买了1台阿里云4核8G的服务器作为 worker 节点,由原来的 3 manager nodes + 2 worker nodes 变为 3 manager nodes + 3 worker nodes . 晚上,我们对已经持续运行一段时间的5个节点逐一进行重启操作,重启方式如下: 1)docker node update --availability drain 让节点下线2)阿里云控制台重启服务器3

Redis(六)——高可用之哨兵sentinel配置与启动及主从服务宕机与恢复

.主从复制高可用 #主从复制存在的问题: 1 主从复制,主节点发生故障,需要做故障转移,可以手动转移:让其中一个slave变成master 2 主从复制,只能主写数据,所以写能力和存储能力有限哨兵是对Redis的系统的运行情况的监控,它是一个独立进程,它会独立运行,功能有二个: 通过发送命令,让Redis服务器返回监控其运行状态,包括主服务器和从服务器. 当哨兵监测到master宕机,会自动将slave切换成master,然后通过发布订阅模式通知其他的从服务器,修改配置文件,让它们切换主机.

Redis的KEYS命令引起RDS数据库雪崩，RDS发生两次宕机，造成几百万的资金损失

最近的互联网线上事故发生比较频繁,20180919顺丰发生了一起线上删库事件,在这里就不介绍了. 在这里讲述一下最近发生在我公司的事故,以及如何避免,并且如何处理优化. 间接原因还有很多,技术跟不上业务的发展,由每日百万量到千万级是一个大的跨进,公司对于系统优化的处理优先级不高,技术开发人手的短缺第一次宕机20180913某个点,公司某服务化项目的RDS实例连接飙升,CPU升到100%,拒绝了其他应用的所有请求服务整个过程如下: 监控报警,显示RDS的CPU使用率达到80%以上,DBA介入,准

和表值函数连接引发的性能问题

原文:和表值函数连接引发的性能问题最近调优过程中遇到一个问题,就是表值函数作为连接中的一部分时,可能会引起麻烦,本文会简单阐述表值函数是什么,以及为什么使用表值函数进行连接时会引发性能问题. 表值函数 SQL Server中提供了类似其他编程语言的函数,而函数的本质通常是一段代码的封装,并返回值.在SQL Server中,函数除了可以返回简单的数据类型之外(Int.Varchar等),还可以返回一个集合,也就是返回一个表. 而根据是否直接返回集合或是定义后再返回集合,表

Redis架构之防雪崩设计：网站不宕机背后的兵法

Redis架构之防雪崩设计:网站不宕机背后的兵法原创: 付磊,张益军高可用架构 2017-03-24 导读:互联网系统中不可避免要大量用到缓存,在缓存的使用过程中,架构师需要注意哪些问题?本文以 Redis 为例,详细探讨了最关键的 3 个问题. 一.缓存穿透预防及优化缓存穿透是指查询一个根本不存在的数据,缓存层和存储层都不会命中,但是出于容错的考虑,如果从存储层查不到数据则不写入缓存层,如图 11-3 所示整个过程分为如下 3 步: 缓存层不命中存储层不命中,所以不将空结果写回缓存返

【IT运维监控】集团宕机引发对运维人员的思考　

前不久某大型集团官网和APP突然无法正常使用引发热议,不少人幸灾乐祸,也引发出了各种的谣言和段子,根本难以体会集团内部所受的压力,特别是作为一个大集团内部的运维人员所承受的各种压力和不安. 后来,原支付宝运维团队负责人针对此事发表了一篇文章,让不少的运维人员深有感触,作为肩负运维监控使命的运维监控工具--PIGOSS BSM 也同样感同身受.面对层出不穷的运维安全隐患,当下运维人员急需一套高效的7*24小时都能担负监控任务的工具,为自身的运维工作减负,告别之前加班熬夜但没有工作成绩的"怪现像

redis集群节点宕机

redis集群是有很多个redis一起工作,那么就需要这个集群不是那么容易挂掉,所以呢,理论上就应该给集群中的每个节点至少一个备用的redis服务.这个备用的redis称为从节点(slave). 1.集群是如何判断是否有某个节点挂掉首先要说的是,每一个节点都存有这个集群所有主节点以及从节点的信息.它们之间通过互相的ping-pong判断是否节点可以连接上.如果有一半以上的节点去ping一个节点的时候没有回应,集群就认为这个节点宕机了,然后去连接它的备用节点. 2.集群进入fail状态的必要条件

redis主从架构宕机问题手动解决

1 主机宕机 1. 设置端口6379是主机,端口6380是从机,全部都正常启动 2. 验证在6379写入数据,在6380也能得到数据 3. 现在将6379主机停掉,模拟主机宕机 4. 由于主机宕机了,现在就要将6380从机设置为主机,使用slaveof no one命令,此时原来的从机变为主机也用了写的权限 5. 要是原来6379经过修复后,能够正常工作,先将6380主机数据进行保存持久化,将rdb文件,覆盖原主机6379的rdb文件,进行数据的统一. 6. 启动原来的主机6

redis宕机如何解决？如果是项目上线的宕机呢？

我们先来了解一下 bridge网络模式他会创建一个docker0桥,看完这个我们就会知道redis哨兵机制的端口了. 之后继续研究redis宕机的解决办法! 宕机: 服务器停止服务如果只有一台redis, 肯定会造成数据丢失. 多台reids或者是Redis集群,服务器宕机还有办法. 1.从的redis宕机怎么解决? 配置主从复制的时候才配置从的redis, 从的会从主的redis中读取主的redis的操作日志,来达到主从复制. 1.只要把从的redis重新启动,再和主的进行连接就可以 2