Cuckoo hash算法分析

一 基本思想:

cuckoo hash是一种解决hash冲突的方法,其目的是使用简单的hash 函数来提高hash table的利用率,同时保证O(1)的查询时间

基本思想是使用2个hash函数来处理碰撞,从而每个key都对应到2个位置。

插入操作如下:

1. 对key值hash,生成两个hash key值,hashk1和 hashk2, 如果对应的两个位置上有一个为空,那么直接把key插入即可。

2. 否则,任选一个位置,把key值插入,把已经在那个位置的key值踢出来。

3. 被踢出来的key值,需要重新插入,直到没有key被踢出为止。

查找思路与一般hash一致。

cuckoo hash的扩展:

1、减小hash碰撞

一个key对应的hash table位置处存储多个value(从slot way到 多个 slot way),从而以增加查找与插入时间为代价减小hash碰撞。

做了个实验,比较不同slot way 下 同样装载率(75%)下的碰撞率(hash 函数使用的是cityhash):

slot way Num 1 2 4 8
collision Factors 同样条件最大装载率为30% 9% 3.6% 1.1%

表1

注:表1中的”同样条件“是指cuckoo hash中特有的,在hash collision 时的搜索路径的次数一定时。

   从图中我们可以看到,在使用cityhash, 1 slot way 时,hash collision 的概率是很高的。

参考链接如下:

http://www.it-c.dk/people/pagh/papers/cuckoo-undergrad.pdf

http://www.it-c.dk/people/pagh/papers/cuckoo-jour.pdf

http://en.wikipedia.org/wiki/Cuckoo_hashing

http://hi.baidu.com/algorithms/blog/item/eb89b582add48f95f703a61e.html

http://blog.csdn.net/suwei19870312/article/details/7442786

时间: 2024-10-15 22:38:46

Cuckoo hash算法分析的相关文章

Cuckoo Hash——Hash冲突的解决办法

参考文献: 1.Cuckoo Filter hash算法 2.cuckoo hash 用途: Cuckoo Hash(布谷鸟散列).问了解决哈希冲突的问题而提出,利用较少的计算换取较大的空间.占用空间少,查询速度快.经常应用于Bloom Filter和内存管理中.之所以起这个名字是因为布谷鸟生性贪婪,不自己筑巢,而是在别的鸟巢里面鸟蛋孵化,先成长的幼鸟会将别的鸟蛋挤出,这样独享“母爱”,类似于哈希冲突处理过程. 算法描述: 使用hashA.hashB计算对应的key位置: 1.两个位置均为空,则

【转】【java源码分析】Map中的hash算法分析

全网把Map中的hash()分析的最透彻的文章,别无二家. 2018年05月09日 09:08:08 阅读数:957 你知道HashMap中hash方法的具体实现吗?你知道HashTable.ConcurrentHashMap中hash方法的实现以及原因吗?你知道为什么要这么实现吗?你知道为什么JDK 7和JDK 8中hash方法实现的不同以及区别吗?如果你不能很好的回答这些问题,那么你需要好好看看这篇文章.文中涉及到大量代码和计算机底层原理知识.绝对的干货满满.整个互联网,把hash()分析的

C#中Dictionary,Hashtable,List的比较及分析

一. Dictionary与Hashtable Dictionary与Hashtable都是.Net Framework中的字典类,能够根据键快速查找值 字典的性能取决于键类型的GetHashCode()方法的实现代码. 键类型也必须实现IEquatable<T>.Equals()方法,并且如果A.Equals(B)返回true,则A和B的GetHashCode()也必须返回相同的值. Dictionary 适合多线程 有泛型优势(类型安全,性能更好),对于值类型,不存在装箱和拆箱的性能损耗

深入分析HashMap

本文基于jdk1.8 HashMap特点: HashMap具体方法分析: put方法分析: 执行流程图: public V put(K key, V value) { return putVal(hash(key), key, value, false, true); } /** * Implements Map.put and related methods * * @param hash hash for key * @param key the key * @param value the

过滤器系列(二)——布谷过滤器

这一篇讲的是布谷过滤器(cuckoo fliter),这个名字来源于更早发表的布谷散列(cuckoo hash),尽管我也不知道为什么当初要给这种散列表起个鸟名=_= 由于布谷过滤器本身的思想就源自于布谷散列,那么我们就从布谷散列开始说它的设计思想.产生布谷散列表的一个重要背景是人们对于球盒问题的分析:给定N个球,随机的放在N个盒子里,在装球最多的盒子里,球的个数的期望是多少?答案是\(\Theta (logN/loglogN)\),这个问题其实就是散列表装填因子为1时的情况分析.后来有一天,人

论文阅读:FlowBlaze Stateful Packet Processing in Hardware

1.背景 随着网络规模的日益增长,网络的基础设施需要不断发展的网络功能(Network Function)才能使得网络安全可靠的运行,这些网络功能例如:NAT(Network Address Translation,网络地址转换),负载均衡,流量整形,防火墙等等. 但由于网络功能由纯软件实现,这便来带了时延的开销,如下图所示. 2.要解决的问题 微软提出了基于FPGA的Smart NIC,可以节省CPU使用率并且减少PCIe总线上的流量,但这必须需要专门的团队来负责,这对于大公司没有问题,但对于

Cuckoo for Hashing(hash)

Problem B:Cuckoo for HashingAn integer hash table is a data structure that supports insert, delete and lookup of integer values inconstant time. Traditional hash structures consist of an array (the hash table) of some size n, and ahash function f(x)

HASH算法

哈希表(Hash Table)是一种特殊的数据结构,它最大的特点就是可以快速实现查找.插入和删除.因为它独有的特点,Hash表经常被用来解决大数据问题,也因此被广大的程序员所青睐.为了能够更加灵活地使用Hash来提高我们的代码效率,今天,我们就谈一谈Hash的那点事. 回到顶部 1. 哈希表的基本思想 我们知道,数组的最大特点就是:寻址容易,插入和删除困难:而链表正好相反,寻址困难,而插入和删除操作容易.那么如果能够结合两者的优点,做出一种寻址.插入和删除操作同样快速容易的数据结构,那该有多好.

Cuckoo Filter:设计与实现

Cuckoo Filter:设计与实现 对于海量数据处理业务,我们通常需要一个索引数据结构,用来帮助查询,快速判断数据记录是否存在,这种数据结构通常又叫过滤器(filter).考虑这样一个场景,上网的时候需要在浏览器上输入URL,这时浏览器需要去判断这是否一个恶意的网站,它将对本地缓存的成千上万的URL索引进行过滤,如果不存在,就放行,如果(可能)存在,则向远程服务端发起验证请求,并回馈客户端给出警告. 索引的存储又分为有序和无序,前者使用关联式容器,比如B树,后者使用哈希算法.这两类算法各有优