Erlang ets -- something about cache

都说用ets 写一个cache 太简单, 那就简单的搞一个吧, 具体代码就不贴了, 就说说简要的需求和怎么做(说设计有点虚的慌).

需求场景

>> 查询系统,对于主存储而言,一次写入多次查询

所以,cache 需要能实现:

UserA 在查询 RecordA 时, UserB 也需要查询RecordA, 就让UserB waiting, 待UserA 查询完成之后, 共享RecordA 的查询结果.

>> 限制单个ets 表的内存使用量,先进先出

那就需要个queue,求 queue length 的频率较大,考虑下RabbitMQ 的 lqueue

>> 限制单个Record 的内存使用量, 如果小于limit,就保留Record,反之,不保留

>> 辅助性的一些feature (reset memory limit, clean all cache, get cache informations, delete single cache ...)

Query 状态

既然UserA 在查询RecordA 时,若UserB 也需要查询,就让UserB等待.就需要保存查询的状态, cache 的结构:

{QueryTerms, QueryStatus, WaitingUser, QueryResult}

QueryTerms 即查询条件

QueryStatus 是查询状态, 正在处理查询为handling, 查询已经处理完毕为handled

WaitingUser 是等在查询的user, 若QueryStatus 为 handling, 就将 ‘erlang:self()‘ append 到WaitingUser, 若QueryStatus 为handled, QueryResult 即为需要的查询结果

QueryResult 查询结果

FIFO queue

cache 不能无休无止的消耗内存, 需要加一个memory total limit, 当超过limit 后, cache 就FIFO .

这样的话, gen_server 进程除了维持ets table 外, 还需要维护queue , 然后refresh queue len 和 memory .

refresh memory 的简单代码:

 1 handle_info({refresh_mem}, #state{queue_mem = UNQueueMem,
 2                                   queue = Queue,
 3                                   etstable = EtsTable} = State) ->
 4     QueueMem = UNQueueMem * 1024 * 1024 / 8,
 5     case catch ets:info(EtsTable, memory) of
 6         Mem when erlang:is_integer(Mem) ->
 7             if
 8                 Mem > QueueMem ->
 9                     case lqueue:is_empty(Queue) of
10                         true ->
11                             {noreply, State, ?HIBERNATE_TIMEOUT};
12                         _ ->
13                             {{value, OldQueryTerms}, NewQueue} = lqueue:out(Queue),
14                             delete_old_ets(EtsTable, OldQueryTerms),
15                             erlang:send(erlang:self(), {refresh_mem}),
16                             {noreply, State#state{queue = NewQueue}, ?HIBERNATE_TIMEOUT}
17                     end;
18                 true ->
19                     {noreply, State, ?HIBERNATE_TIMEOUT}
20             end
21             ;
22         _ ->
23             {noreply, State, ?HIBERNATE_TIMEOUT}
24     end;

L1 处的 queue_mem 为 total memory limit

若超过 total memory limit 且queue 不为空, 就 queue out 并在ets table 中将Record 删除.

single cache limit

既然要作单条Record 内存使用量的限制, 就需要知道single Record 的内存占用量, 最简单的办法是:

ets:info(T, memory) ---> ets:insert(T, R) ---> ets:info(T, memory)

然后计算前后memory 的差值.

在"单进程写入/删除, 多进程读"的模式下,此方式不会出现什么问题.

多进程读写

"单进程(gen_server 进程)写入/删除,多进程读" 的方式应该是比较合理的模式,但是这种方式的弊端也显而易见:效率低,在重负载的单进程的压力增加,进程message queue 堆积,进而出现问题.(即便是能做好隔离,同样会对系统产生影响)

那多进程读写的方式呢?

多进程读写,然后将refresh memory的工作交给gen_server 进程. 这种方式,对于大多数功能,是没有问题的(得益于ets 的特性),但是对single cache limit feature 的实现,就会出现很大的影响.single cache limit 需要对ets 做三次操作:

ets:info(T, memory) ---> ets:insert(T, R) ---> ets:info(T, memory)

多进程读写的话,就很难避免在这三次操作中,穿插 delete/insert 操作, 就很难保证正确性.

这个时候, 就需要safe_fixtable 操作.在网上关于safe_fixtable 的资料比较少, 在此收集一些:

1, 坚强blog (http://www.cnblogs.com/me-sa/archive/2011/08/11/erlang0007.html)

在遍历过程中,可以使用safe_fixtable来保证遍历过程中不出现错误,所有数据项只被访问一遍.用到逐一遍历的场景就很少,使用safe_fixtable的情景就更少。不过这个机制是非常有用的,
还记得在.net中版本中很麻烦的一件事情就是遍历在线玩家用户列表.由于玩家登录退出的变化,这里的异常几乎是不可避免的.select match内部实现的时候都会使用safe_fixtable

2,  google group 的讨论(https://groups.google.com/forum/#!topic/erlang-china/OnwM5uPVjmI)


其他功能

其他的feature 就没什么好说的了, 堆码而已.

时间: 2024-10-15 01:49:45

Erlang ets -- something about cache的相关文章

Erlang ets -- something about cache continue

上一次说到了实现一个简单cache 的基本思路和想法, http://www.cnblogs.com/--00/p/erlang_ets_something_about_cache.html 在文末, 说到了判断single record 内存占用量. 这次继续说说Erlang 数据项内存的相关问题. 在Erlang efficiency_guide 文档中, 较为清楚的表述了Erlang 系统中不同数据类型的内存消耗, 在这简单贴一两个: Small integer 1 wordOn 32-b

Erlang ETS Table

不需要显示用锁,插入和查询时间不仅快而且控制为常量,这就是Erlang的ETS Table. 为什么而设计? Erlang中可以用List表达集合数据,但是如果数据量特别大的话在List中访问元素就会变慢了;这种主要是由于List的绝大部分操作都是基于遍历完成的. Erlang的设计目标是软实时(参考:http://en.wikipedia.org/wiki/Real-time_computing),在大量数据中检索的时间不仅要快而且要求是常量.为了解决快速查 询的问题,Erlang提供的机制就

Erlang --- ETS表

ETS和进程字典都是Erlang所独有的. ETS是Erlang Term Storage 的缩写,它是一个基于内存的KV( Key Value) Table,支持大数据量存储以及高效查询. 要使用ETS表,首先就要先新建ETS表. 1.ets:new(?ETS_SYS_BUILDING,[{keypos,#ets_sys_building.sysBuildingId},named_table,public,set]) 其中 ?ETS_SYS_BUILDING:是表名 {keypos,#ets_

erlang ets学习笔记

ets全称“erlang term storage” erlang项式存储. ets打破了erlang“不变数据”的原则,使得进程之间可以共享数据.首先引起的思考是为什么会出现ets?下面是对网络资料的整理和分析: <why:为什么要引入ets?> <坚强2002> Erlang中可以用List表达集合数据,但是如果数据量特别大的话在List中访问元素就会变慢了;这种主要是由于List的绝大部分操作都是基于遍历完成的. Erlang的设计目标是软实时(参考:http://en.wi

记一次erlang 节点CPU严重波动排查过程

新服务上线后观察到,CPU在10 ~ 70%间波动严重,但从每秒业务计数器看业务处理速度很平均. 接下来是排查步骤: 1. dstat -tam 大概每10s一个周期,网络流量开始变得很小,随后突然增大,CPU也激增. 网络流量变化和从性能计数器结果上并不符合,服务相关业务较为复杂,先找出那个业务占用网络流量. 2. iftop 找出流量最大的几个目标IP,并且周期的流量变为0随后激增. 通过IP 知道是外部http接口地址,因为接口调用是异步进行的,性能计算是执行开始记录的,而不是结束记录,因

Erlang/OTP 中文手册

http://erldoc.com/ Open Telecom Platform application array asn1rt base64 binary calendar code dbg dict erlang ets file filelib gb_trees gen_tcp inet io lists make maps math mnesia net_adm os proplists random re rpc string sys unicode Erlang并发编程 Erlan

[Erlang 0126] 我们读过的Erlang论文

我在Erlang Resources 豆瓣小站上发起了一个征集活动 [链接] ,"[征集] 我们读过的Erlang论文",希望大家来参加.发起这样一个活动的目的是因为Erlang相关的出版物很少,很多时候都是从学术论文中寻找答案,而发现合适的论文是第一步,这个活动就是为了解决这个问题. 在一个极小的知识点可能都会有一篇精彩的论文为你条分缕析,抽丝剥茧,甚至可以拼凑起来一个完整的Erlang知识系统,我们开始吧... <面向软件错误构建可靠的分布式系统> Making rel

Erlang--etc结构解析

Erlang中可以用List表达集合数据,但是如果数据量特别大的话在List中访问元素就会变慢了;这种主要是由于List的绝大部分操作都是基于遍历完成的. Erlang的设计目标是软实时(参考:http://en.wikipedia.org/wiki/Real-time_computing),在大量数据中检索的时间不仅要快而且要求是常量.为了解决快速查 询的问题,Erlang提供的机制就是ETS(Erlang Term Storage)和DETS(Disk Erlang Term Storage

[Erlang之旅 0005] ETS 和Record

ETS 提供“键-值” 搜索表, 驻留在内存中,速度较快.是缓存的大利器. record 作为erlang的一种数据结构,通常用于函数量传递. ETS中创建表, 对数据进行增.删.改.查 , 及关闭表常用的函数 ets:new(Name, Options) -> tid()   %% 创建表 Options: Type: set | ordered_set | bag | duplicate_bag set: 每一个元组的键值都不能相同:ordered_set:元组键不能相同,并且会进行排序 b