应对Memcached缓存失效，导致高并发查询DB的几种思路

原文地址： http://blog.csdn.net/hengyunabc/article/details/20735701

当Memcached缓存失效时，容易出现高并发的查询DB，导致DB压力骤然上升。

这篇blog主要是探讨如何在缓存将要失效时，及时地更新缓存，而不是如何在缓存失效之后，如何防止高并发的DB查询。

个人认为，当缓存将要失效时，及时地把新的数据刷到memcached里，这个是解决缓存失效瞬间高并发查DB的最好方法。那么如何及时地知道缓存将要失效？

解决这个问题有几种思路：

比如一个key是aaa，失效时间是30s。

1.定期从DB里查询数据，再刷到memcached里

这种方法有个缺点是，有些业务的key可能是变化的，不确定的。

而且不好界定哪些数据是应该查询出来放到缓存中的，难以区分冷热数据。

2.当缓存取到为null时，加锁去查询DB，只允许一个线程去查询DB

这种方式不太靠谱，不多讨论。而且如果是多个web服务器的话，还是有可能有并发的操作。

3.在向memcached写入value时，同时写入当前机器在时间作为过期时间

当get得到数据时，如果当前时间 - 过期时间 > 5s，则后台启动一个任务去查询DB，更新缓存。

当然，这里的后台任务必须保证同一个key，只有一个线程在执行查询DB的任务，不然这个还是高并发查询DB。

缺点是要把过期时间和value合在一起序列化，取出数据后，还要反序列化。很不方便。

网上大部分文章提到的都是前面两种方式，有少数文章提到第3种方式。下面提出一种基于两个key的方法：

4.两个key，一个key用来存放数据，另一个用来标记失效时间

比如key是aaa，设置失效时间为30s，则另一个key为expire_aaa，失效时间为25s。

在取数据时，用multiget，同时取出aaa和expire_aaa，如果expire_aaa的value == null，则后台启动一个任务去查询DB，更新缓存。和上面类似。

对于后台启动一个任务去查询DB，更新缓存，要保证一个key只有一个线程在执行，这个如何实现？

对于同一个进程，简单加锁即可。拿到锁的就去更新DB，没拿到锁的直接返回。

对于集群式的部署的，如何实现只允许一个任务执行？

这里就要用到memcached的add命令了。

add命令是如果不存在key，则设置成功，返回true，如果已存在key，则不存储，返回false。

当get expired_aaa是null时，则add expired_aaa 过期时间由自己灵活处理。比如设置为3秒。

如果成功了，再去查询DB，查到数据后，再set expired_aaa为25秒。set aaa 为30秒。

综上所述，来梳理下流程：

比如一个key是aaa，失效时间是30s。查询DB在1s内。

put数据时，设置aaa过期时间30s，设置expire_aaa过期时间25s；
get数据时，multiget aaa 和 expire_aaa，如果expired_aaa对应的value != null，则直接返回aaa对应的数据给用户。如果expire_aaa返回value == null，则后台启动一个任务，尝试add expire_aaa，并设置超时过间为3s。这里设置为3s是为了防止后台任务失败或者阻塞，如果这个任务执行失败，那么3秒后，如果有另外的用户访问，那么可以再次尝试查询DB。如果add执行成功，则查询DB，再更新aaa的缓存，并设置expire_aaa的超时时间为25s。

5. 时间存到Value里，再结合add命令来保证只有一个线程去刷新数据

update:2014-06-29

最近重新思考了下这个问题。发现第4种两个key的办法比较耗memcached的内存，因为key数翻倍了。结合第3种方式，重新设计了下，思路如下：

仍然使用两个key的方案：

key

__load_{key}

其中，__load_{key} 这个key相当于一个锁，只允许add成功的线程去更新数据，而这个key的超时时间是比较短的，不会一直占用memcached的内存。

在set 到Memcached的value中，加上一个时间，(time, value)，time是memcached上的key未来会过期的时间，并不是当前系统时间。
当get到数据时，检查时间是否快要超时： time - now < 5 * 1000，假定设置了快要超时的时间是5秒。

* 如果是，则后台启动一个新的线程：
* 尝试 add __load_{key}，
* 如果成功，则去加载新的数据，并set到memcached中。

* 原来的线程直接返回value给调用者。

按上面的思路，用xmemcached封装了下：

DataLoader，用户要实现的加载数据的回调接口：

[java] view plain copy

public interface DataLoader {
public <T> T load();
}

RefreshCacheManager，用户只需要关心这这两个接口函数：

[java] view plain copy

public class RefreshCacheManager {
static public <T> T tryGet(MemcachedClient memcachedClient, final String key, final int expire, final DataLoader dataLoader);
static public <T> T autoRetryGet(MemcachedClient memcachedClient, final String key, final int expire, final DataLoader dataLoader);
}

其中autoRetryGet函数如果get到是null，内部会自动重试4次，每次间隔500ms。

RefreshCacheManager内部自动处理数据快过期，重新刷新到memcached的逻辑。

详细的封装代码在这里：https://gist.github.com/hengyunabc/cc57478bfcb4cd0553c2

总结：

我个人是倾向于第5种方式的，因为很简单，直观。比第4种方式要节省内存，而且不用mget，在使用memcached集群时不用担心出麻烦事。

这种两个key的方式，还有一个好处，就是数据是自然冷热适应的。如果是冷数据，30秒都没有人访问，那么数据会过期。

如果是热门数据，一直有大流量访问，那么数据就是一直热的，而且数据一直不会过期。

时间： 2024-10-26 20:59:56

应对Memcached缓存失效，导致高并发查询DB的几种思路的相关文章

应对Memcached缓存失效，导致高并发查询DB的四种思路(l转)

当Memcached缓存失效时,容易出现高并发的查询DB,导致DB压力骤然上升. 这篇blog主要是探讨如何在缓存将要失效时,及时地更新缓存,而不是如何在缓存失效之后,如何防止高并发的DB查询. 解决这个问题有四种思路: 比如一个key是aaa,失效时间是30s. 1.定期从DB里查询数据,再刷到memcached里这种方法有个缺点是,有些业务的key可能是变化的,不确定的. 而且不好界定哪些数据是应该查询出来放到缓存中的,难以区分冷热数据. 2.当缓存取到为null时,加锁去查询DB,只允许

应对Memcache缓存失效，导致高并发查询DB

坑系列 —— 缓存+哈希=高并发？

今天继续坑系列,高可用已经讲过了,当前互联网时代,怎么少的了高并发呢?高并发和高可用一样, 已经变成各个系统的标配了,如果你的系统QPS没有个大几千上万,都不好意思跟人打招呼,虽然可能每天的调用量不超过100. 高并发这个词,我个人感觉是从电商领域开始往外流传的,特别是电商领域双11那种藐视全球的流量,再把技术架构出来分享一把,现在搞得全互联网都在说高并发,而且你注意回忆一下所有你看到的高并发系统,往往都逃不开一个核心概念,那就是缓存+哈希,一切都是以这个概念和基础的,仿佛这就是高并发的核心技术

memcached缓存失效时的高并发访问问题解决

memcached一般用于在访问一些性能相对低下的数据接口时(如数据库),为了保证这些数据接口的稳定性,加上memcached以减少访问次数,保证这些数据接口的健壮性.一般memcached的数据都是定时失效的,当数据失效时一般会再次去访问取数据接口,然后将其更新至memcached中.这时就会有一个问题,当某个数据失效时,恰好同时有大量的客户端访问该数据,这时这些客户端都会发现该数据失效,然后都会去调用数据接口去取数据更新,这自然就瞬间地使数据接口失去了memcached的保护,有可能造成系统

面试官：你是如何使用JDK来实现自己的缓存（支持高并发）？

需求分析项目中经常会遇到这种场景:一份数据需要在多处共享,有些数据还有时效性,过期自动失效.比如手机验证码,发送之后需要缓存起来,然后处于安全性考虑,一般还要设置有效期,到期自动失效.我们怎么实现这样的功能呢? 解决方案使用现有的缓存技术框架,比如redis,ehcache.优点:成熟,稳定,功能强大:缺点,项目需要引入对应的框架,不够轻量. 如果不考虑分布式,只是在单线程或者多线程间作数据缓存,其实完全可以自己手写一个缓存工具.下面就来简单实现一个这样的工具. 先上代码: import j

项目中使用缓存的目的?(高并发和高性能)

用缓存,主要有两个用途,一个是高性能,一个是高并发. 1)高性能假设这么个场景,你有个操作,一个请求过来,吭哧吭哧你各种乱七八糟操作mysql,半天查出来一个结果,耗时600ms.但是这个结果可能接下来几个小时都不会变了,或者变了也可以不用立即反馈给用户.那么此时咋办? 缓存啊,折腾600ms查出来的结果,扔缓存里,一个key对应一个value,下次再有人查,别走mysql折腾600ms了.直接从缓存里,通过一个key查出来一个value,2ms搞定.性能提升300倍. 这就是所谓的高性能.

PHP解决抢购、抽奖等阻塞式高并发库存防控超量的思路方法

如今在电商行业里,秒杀抢购活动已经是商家常用促销手段.但是库存数量有限,而同时下单人数超过了库存量,就会导致商品超卖甚至库存变负数的问题. 又比如:抢购火车票.论坛抢楼.抽奖乃至爆红微博评论等也会引发阻塞式高并发问题.如果不做任何措施可能在高瞬间造成服务器瘫痪,如何解决这个问题呢? 这里提出个人认为比较可行的几个思路方法: 方案一:使用消息队列来实现可以基于例如MemcacheQ等这样的消息队列,具体的实现方案这么表述吧比如有100张票可供用户抢,那么就可以把这100张票放到缓存中,读写时不

PHP解决抢购、秒杀、抢楼、抽奖等阻塞式高并发库存防控超量的思路方法

如今在电商行业里,秒杀抢购活动已经是商家常用促销手段.但是库存数量有限,而同时下单人数超过了库存量,就会导致商品超卖甚至库存变负数的问题.又比如:抢购火车票.论坛抢楼.抽奖乃至爆红微博评论等也会引发阻塞式高并发问题.如果不做任何措施可能在高瞬间造成服务器瘫痪,如何解决这个问题呢?这里提出个人认为比较可行的几个思路方法: 方案一:使用消息队列来实现可以基于例如MemcacheQ等这样的消息队列,具体的实现方案这么表述吧比如有100张票可供用户抢,那么就可以把这100张票放到缓存中,读写时不要加锁

高并发大流量站点架构简单思路

******************************* 前端 ******************************* 1.添加必要的硬件和带宽,同一时候额外储备一部分,以备不时之需 2.特别监控网络数据流量是否正常.如是否有大规模的爬虫.DDOS等浑水摸鱼,能够针对iP和Cookie的限流 3.使用CDN同一时候做一些必要的算法改造,动静分离 ******************************* 代码端 ******************************* 1