Redis集群性能问题深度分析

Redis集群性能问题深度分析

参考

Redis开发与运维

https://redis.io/

http://www.redis.cn/

https://github.com/antirez/redis

https://github.com/sohutv/cachecloud

源起

优化之路永无止境,在此之前一做过一些架构优化汇总如下:

1,Redis集群3.0.7升级到3.2.9解决读从节点KEY过期不删除问题,集群有几千万KEY原来经核查3.0.7版本只有主上保存过期时间,所以需要主触发才能删除过期的KEY,默认有主动删除与惰性删除同时工作,但是KEY比较多,写的比删除的KEY,另外读从的话不能触发主动删KEY所以会有KEY没更新问题,升级3.2.X之后解决。

2,发现持久化操作时容易导致超时,后来从节点的持久化关闭,效果良好;后续计划持久化非持久化业务分开,过期时间短的与过期时间长的分开。

2,集群扩容,升级到3.2.9版本后为了均摊QPS扩容了几个节点,后续发现有2个节点内核版本比其他的高但是性能反而表现比其他差,后替换了同版本的内核。

3,Bigkeys扫描发现有几个hashkey元素过大超过几千万,单个KEY占用内存几个G后联系开发解决。

4,建立了CacheCloud监控系统,便于分析观察问题,另外Zabbix也使用Redis模版出现大故障时会报错。

5,后续优化方向转为客户端使用规划的问题,主要是解决各个量大的命令平均用时超过10微秒的问题。

6,每个Redis集群版本升级在功能与性能上都有比较大的提升,需要持久化功能的集群后续可以使用4.0.2版本,另外如果使用虚拟化不建议使用XEN、Hyper-V等,最好使用vSphere压力测试vSphere在各方面表现良好。

一,发现问题

1,慢查询

slowlog get n 默认保留128个日志执行超过10毫秒的记录,可以根据实际情况修改

2,应用报错

主要是应用邮件报超时

二,分析问题

1,内在原因

1)API或数据结构使用不合理

2)CPU饱和的问题

3)持久化相关的阻塞

2,外在原因

1)CPU竞争

2)内存交换

3)网络问题

三,解决问题之内在原因

1,API或数据结构使用不合理

1)发现慢查询

slowlog get n

慢查询日志有两个参数:

slowlog-log-slower-than: 单位微妙,指定redis执行命令的最大时间,超过将记录到慢查询日志中, 不接受负值,如果设置为0每条命令都要记录到慢查询日志中,默认10微妙。

slowlog-max-len: 设置慢查询日志长度,如果慢查询日志已经到最大值,如果有新命令需要记录,就将最老那条记录删除,默认保存128,可以在线修改,CONFIG REWRITE保存。

redis-cli

127.0.0.1:6379> config get slowlog-max-len

1) "slowlog-max-len"

2) "128"

127.0.0.1:6379> config set slowlog-max-len 1000

OK

127.0.0.1:6379> config rewrite

OK

2)发现大key

redis-cli --bigkeys

2,CPU饱和

1)统计Redis状态

500QPS左右,单个命令使用时间越少支持的QPS并发越大,比如平均1毫妙的支持1000QPS,平均100微妙的支持10000QPS。

redis-cli --stat
------- data ------ --------------------- load -------------------- - child -
keys       mem      clients blocked requests            connections          
5088981    6.51G    514     0       578132987 (+0)      384742      
5088997    6.51G    514     0       578133573 (+586)    384742      
5089018    6.51G    514     0       578134096 (+523)    384742      
5089005    6.51G    515     0       578134720 (+624)    384743      
5089048    6.51G    515     0       578135195 (+475)    384743      
5089093    6.51G    513     0       578135829 (+634)    384743      
5089117    6.51G    513     0       578136455 (+626)    384743      
5089081    6.51G    512     0       578136850 (+395)    384743      
5089121    6.51G    512     0       578137226 (+376)    384743

2)命令统计

时间单位为微秒

单个命令10微妙以内,尽量避免高算法复杂的命令

setex平均26

del  平均43

hmset平均229

hmget平均12

以上特别是hmset要优化,另外hgetall命令不建议使用

redis-cli  info commandstats
# Commandstats
cmdstat_get:calls=2814596805,usec=12130889716,usec_per_call=4.31
cmdstat_set:calls=25674338,usec=234328226,usec_per_call=9.13
cmdstat_setex:calls=910333006,usec=20767349072,usec_per_call=22.81
cmdstat_del:calls=780287520,usec=33983500560,usec_per_call=43.55
cmdstat_lpush:calls=1,usec=34,usec_per_call=34.00
cmdstat_hset:calls=145663119,usec=499130659,usec_per_call=3.43
cmdstat_hget:calls=2841141555,usec=13763160250,usec_per_call=4.84
cmdstat_hmset:calls=1452658,usec=333516295,usec_per_call=229.59
cmdstat_hmget:calls=970024532,usec=11909915205,usec_per_call=12.28
cmdstat_hdel:calls=581004,usec=3925702,usec_per_call=6.76
cmdstat_hgetall:calls=28985688,usec=555451600,usec_per_call=19.16
cmdstat_hexists:calls=262547,usec=2867627,usec_per_call=10.92
cmdstat_select:calls=1,usec=1,usec_per_call=1.00
cmdstat_expire:calls=72409493,usec=101731304,usec_per_call=1.40
cmdstat_auth:calls=1544789,usec=2890530,usec_per_call=1.87
cmdstat_ping:calls=4977672,usec=2672430,usec_per_call=0.54
cmdstat_echo:calls=697770,usec=380462,usec_per_call=0.55
cmdstat_info:calls=32700948,usec=7243085428,usec_per_call=221.49
cmdstat_config:calls=2176619,usec=31168795,usec_per_call=14.32
cmdstat_subscribe:calls=1717,usec=7283,usec_per_call=4.24
cmdstat_unsubscribe:calls=5506966,usec=21985846,usec_per_call=3.99
cmdstat_cluster:calls=696482,usec=210160284,usec_per_call=301.75
cmdstat_readonly:calls=696449,usec=437883,usec_per_call=0.63
cmdstat_client:calls=697770,usec=1869891,usec_per_call=2.68
cmdstat_slowlog:calls=2,usec=214,usec_per_call=107.00
cmdstat_command:calls=2,usec=11824,usec_per_call=5912.00

3)持久化阻塞

由于从已经关闭持久化,主要分析主的,主上只开启了RDB且10分钟一次,没有开启AOF刷盘阻塞(故不用考虑)

fork阻塞:latest_fork_usec该指标不能超过1秒,这里是275毫秒

redis-cli  info stats
# Stats
total_connections_received:384861
total_commands_processed:578276973
instantaneous_ops_per_sec:509
total_net_input_bytes:530863235402
total_net_output_bytes:1584445816901
instantaneous_input_kbps:668.38
instantaneous_output_kbps:838.84
rejected_connections:0
sync_full:1
sync_partial_ok:0
sync_partial_err:0
expired_keys:164683638
evicted_keys:0
keyspace_hits:193101765
keyspace_misses:12414607
pubsub_channels:0
pubsub_patterns:0
latest_fork_usec:275078   275毫秒
migrate_cached_sockets:0

另外HugePage写操作阻塞,这个内核已经关闭HugePages,方法如下

echo never > /sys/kernel/mm/transparent_hugepage/enabled

四,解决问题之外在原因

1,CPU竞争

Redis是典型的CPU密集型应用,同一台服务器不建议部署其他服务,如果需要不是多个Redis实例也建议绑定CPU。

2,内存交换

1)根据进程号cat /proc/5413/smaps |grep Swap可以查看内存交换,为了避免内存交换,首先服务器最好富余1/3-1/2内存,fork时会生成一个进程占用当前实例大小的内存,等于说内存加倍。

2)设置最大可用内存及触发内存启动lru算法(Redis版本越高该算法效率越高,因为Redis一直在进化)以防万一,方法如下:

127.0.0.1:6379> CONFIG GET maxmemory

1) "maxmemory"

2) "21474836480"

127.0.0.1:6379> CONFIG GET maxmemory-policy

1) "maxmemory-policy"

2) "allkeys-lru"

3)可以降低系统使用swap的优先级,由于前面对内存做了优化这里没有对swap调优,毕竟这些都是不得已手段,需要从架构与使用上修改效果才好。

3,网络问题

1)连接拒绝

主要是网络闪断接Redis连接数超过默认的10000,可以通过监控与修改默认值规避。目前连接不多,如果连接过多服务端的timeout可以修改一个具体的值,默认是0代表永远不主动断开连接。

另外连接溢出,这个服务端与客户端都需要排查,主要是看进程限制与backlog队列是否溢出。

2)网络延迟

3)网卡软中断

时间: 2024-11-09 18:03:18

Redis集群性能问题深度分析的相关文章

Redis 集群的合纵与连横

之前一篇写了关于 Redis 的性能,这篇就写写我认为比性能更重要的扩展性方面的主题. 如果再给我一次回到好几年前的机会,对于使用 Redis 我一开始就要好好考虑将来的扩展问题.就像我们做数据库分库分表,一旦决策了分库分表,通常一次就会分到位,比如搞上 8 或 16 个库,每个库再分 256 或 1024 个表.不管将来业务再怎么发展,基本这个量级的分片都足够应对,而且底层库可以做成逻辑的,扛不住时再换成物理的,对应用方完全透明,没有数据迁移的烦恼. 而 Redis 其实也提供了类似的逻辑库概

就publish/subscribe功能看redis集群模式下的队列技术(一)

Redis 简介 Redis 是完全开源免费的,是一个高性能的key-value数据库. Redis 与其他 key - value 缓存产品有以下三个特点: Redis支持数据的持久化,可以将内存中的数据保存在磁盘中,重启的时候可以再次加载进行使用. Redis不仅仅支持简单的key-value类型的数据,同时还提供list,set,zset,hash等数据结构的存储. Redis支持数据的备份,即master-slave模式的数据备份. 性能极高 – Redis能读的速度是110000次/s

架构设计:系统存储(17)——Redis集群方案:高可用

1.概述 从本篇文章开始,我们将向读者介绍几种Redis的高可用高负载集群方案.除了介绍Redis 3.X版本中推荐的原生集群方案外,还会介绍使用第三方组件搭建Redis集群的方法.本文我们会首先介绍Redis的高可用集群方案. 2.Redis高可用方案 Redis提供的高可用方案和我们介绍过的很多软件的高可用方案类似,都是使用主从节点的思路.即是有一个Master节点在平时提供服务,另外一个或多个Slave节点在平时不提供服务(或只提供数据读取服务).当Master节点由于某些原因停止服务后,

Redis集群明细文档

Redis目前版本是没有提供集群功能的,如果要实现多台Redis同时提供服务只能通过客户端自身去实现(Memchached也是客户端实现分布式).目前根据文档已经看到Redis正在开发集群功能,其中一部分已经开发完成,但是具体什么时候可以用上,还不得而知.文档来源:http://redis.io/topics/cluster-spec 一.介绍 该文档是开发之中的redis集群实现细节.该文档分成两个部分,第一部分为在redis非稳定版本代码分支上已经实现的,另外一部分为还需要去实现的.在未来若

redis集群讨论

一.生产应用场景 二.存储架构演变 三.应用最佳实践 四.运维经验总结 第1.2节:介绍redis cluster在唯品会的生产应用场景,以及存储架构的演变.第3节:redis cluster的稳定性,应用成熟度,踩到过那些坑,如何解决这些问题?这部分是大家比较关心的内容.第4节:简单介绍大规模运营的一些经验,包括部署.监控.管理以及redis工具开发. 一.生产应用场景 1.业务范围 redis cluster在唯品会主要应用于后端业务,用作内存存储服务.主要大数据实时推荐/ETL.风控.营销

redis使用基础(六) ——Redis集群

redis使用基础(六) --Redis集群 (转载请附上本文链接--linhxx) 一.单台服务器 单台redis服务器,会出现单点故障,且需要承受所有的负载.另外,所有的内容都存在单个服务器上,该服务器会成为瓶颈. 使用多台服务器作为redis服务器,需要考虑集群管理,如数据一致性.增加节点.故障恢复等问题.redis对处理这些问题有一套方案. 二.复制 redis的持久化功能保证了数据的持久性,但是如果服务器故障,数据还是可能会丢失,因此需要将数据备份到其他服务器.当一台服务器内容更新,会

Redis集群,备份,哨兵机制

原文:https://blog.csdn.net/zy345293721/article/details/87536144 1.集群        先来简单了解下redis中提供的集群策略, 虽然redis有持久化功能能够保障redis服务器宕机也能恢复并且只有少量的数据损失,但是由于所有数据在一台服务器上,如果这台服务器出现硬盘故障,那就算是有备份也仍然不可避免数据丢失的问题.       在实际生产环境中,我们不可能只使用一台redis服务器作为我们的缓存服务器,必须要多台实现集群,避免出现

Redis集群都有哪些模式

前言: 一,为什么要使用redis 1,解决应用服务器的cpu和内存压力 2,减少io的读操作,减轻io的压力 3,关系型数据库扩展性不强,难以改变表的结构 二,优点 1,nosql数据库没有关联关系,数据结构简单,扩展容易 2,数据读写快,能够每秒胜任几十万的并发,处理速度快 三,使用场景 1,数据高并发读写 2,海量数据读写 3,对不规则数据也就是扩展性要求高的数据 四,不适合场景 1,需要事务支持,虽然它也有事务但是没有关系型数据库的那么成熟吧 2,基于sql进行操作 好了扯远了,现在来讲

Redis集群演变和集群部署

Redis系列: Redis安装和配置 Redis基本数据结构 Redis核心原理 Redis集群演变和集群部署 Redis高可用集群之水平扩展 一.Redis集群方案比较 哨兵模式 在redis3.0以前的版本要实现集群一般是借助哨兵sentinel工具来监控master节点的状态,如果master节点异常,则会做主从切换,将某一台slave作为master,哨兵的配置略微复杂,并且性能和高可用性等各方面表现一般,特别是在主从切换的瞬间存在访问瞬断的情况,而且哨兵模式只有一个主节点对外提供服务