一致性哈希算法与Java实现

一致性哈希算法是分布式系统中常用的算法。比如,一个分布式的存储系统,要将数据存储到具体的节点上,如果采用普通的hash方法,将数据映射到具体的节 点上,如key%N,key是数据的key,N是机器节点数,如果有一个机器加入或退出这个集群,则所有的数据映射都无效了,如果是持久化存储则要做数据 迁移,如果是分布式缓存,则其他缓存就失效了。

因此,引入了一致性哈希算法:

把数据用hash函数(如MD5),映射到一个很大的空间里,如图所示。数据的存储时,先得到一个hash值,对应到这个环中的每个位置,如k1对应到了图中所示的位置,然后沿顺时针找到一个机器节点B,将k1存储到B这个节点中。

如果B节点宕机了,则B上的数据就会落到C节点上,如下图所示:

这样,只会影响C节点,对其他的节点A,D的数据不会造成影响。然而,这又会造成一个“雪崩”的情况,即C节点由于承担了B节点的数据,所以C节点的负载会变高,C节点很容易也宕机,这样依次下去,这样造成整个集群都挂了。

为此,引入了“虚拟节点”的概念:即把想象在这个环上有很多“虚拟节点”,数据的存储是沿着环的顺时针方向找一个虚拟节点,每个虚拟节点都会关联到一个真实节点,如下图所使用:

图中的A1、A2、B1、B2、C1、C2、D1、D2都是虚拟节点,机器A负载存储A1、A2的数据,机器B负载存储B1、B2的数据,机器C负载存储C1、C2的数据。由于这些虚拟节点数量很多,均匀分布,因此不会造成“雪崩”现象。

Java实现:

[java] view plaincopyprint?

    1. public class Shard<S> { // S类封装了机器节点的信息 ,如name、password、ip、port等
    2. private TreeMap<Long, S> nodes; // 虚拟节点
    3. private List<S> shards; // 真实机器节点
    4. private final int NODE_NUM = 100; // 每个机器节点关联的虚拟节点个数
    5. public Shard(List<S> shards) {
    6. super();
    7. this.shards = shards;
    8. init();
    9. }
    10. private void init() { // 初始化一致性hash环
    11. nodes = new TreeMap<Long, S>();
    12. for (int i = 0; i != shards.size(); ++i) { // 每个真实机器节点都需要关联虚拟节点
    13. final S shardInfo = shards.get(i);
    14. for (int n = 0; n < NODE_NUM; n++)
    15. // 一个真实机器节点关联NODE_NUM个虚拟节点
    16. nodes.put(hash("SHARD-" + i + "-NODE-" + n), shardInfo);
    17. }
    18. }
    19. public S getShardInfo(String key) {
    20. SortedMap<Long, S> tail = nodes.tailMap(hash(key)); // 沿环的顺时针找到一个虚拟节点
    21. if (tail.size() == 0) {
    22. return nodes.get(nodes.firstKey());
    23. }
    24. return tail.get(tail.firstKey()); // 返回该虚拟节点对应的真实机器节点的信息
    25. }
    26. /**
    27. *  MurMurHash算法,是非加密HASH算法,性能很高,
    28. *  比传统的CRC32,MD5,SHA-1(这两个算法都是加密HASH算法,复杂度本身就很高,带来的性能上的损害也不可避免)
    29. *  等HASH算法要快很多,而且据说这个算法的碰撞率很低.
    30. *  http://murmurhash.googlepages.com/
    31. */
    32. private Long hash(String key) {
    33. ByteBuffer buf = ByteBuffer.wrap(key.getBytes());
    34. int seed = 0x1234ABCD;
    35. ByteOrder byteOrder = buf.order();
    36. buf.order(ByteOrder.LITTLE_ENDIAN);
    37. long m = 0xc6a4a7935bd1e995L;
    38. int r = 47;
    39. long h = seed ^ (buf.remaining() * m);
    40. long k;
    41. while (buf.remaining() >= 8) {
    42. k = buf.getLong();
    43. k *= m;
    44. k ^= k >>> r;
    45. k *= m;
    46. h ^= k;
    47. h *= m;
    48. }
    49. if (buf.remaining() > 0) {
    50. ByteBuffer finish = ByteBuffer.allocate(8).order(
    51. ByteOrder.LITTLE_ENDIAN);
    52. // for big-endian version, do this first:
    53. // finish.position(8-buf.remaining());
    54. finish.put(buf).rewind();
    55. h ^= finish.getLong();
    56. h *= m;
    57. }
    58. h ^= h >>> r;
    59. h *= m;
    60. h ^= h >>> r;
    61. buf.order(byteOrder);
    62. return h;
    63. }
    64. }
时间: 2024-11-04 09:53:14

一致性哈希算法与Java实现的相关文章

负载均衡-基础-一致性哈希算法及java实现

一致性hash算法,参考: http://www.blogjava.net/hello-yun/archive/2012/10/10/389289.html 针对这篇文章,加入了自己的理解,在原有的代码上进行了修改. 1 /** 2 * 一致性hash 的java 实现 3 * @author luoqiang 4 * @data 2016/11/08 5 */ 6 public class ConsistencyHash { 7 8 public ConsistencyHash(List<No

一致性哈希算法(consistent hashing)(转)

原文链接:每天进步一点点——五分钟理解一致性哈希算法(consistent hashing) 一致性哈希算法在1997年由麻省理工学院提出的一种分布式哈希(DHT)实现算法,设计目标是为了解决因特网中的热点(Hot spot)问题,初衷和CARP十分类似.一致性哈希修正了CARP使用的简 单哈希算法带来的问题,使得分布式哈希(DHT)可以在P2P环境中真正得到应用. 一致性hash算法提出了在动态变化的Cache环境中,判定哈希算法好坏的四个定义: 1.平衡性(Balance):平衡性是指哈希的

一致性哈希算法的应用及实现

一致性哈希算法(Consistent Hashing Algorithm)是一种分布式算法,由MIT的Karger及其合作者提出,现在这一思想已经扩展到其它领域.1997年发表的学术论文中介绍了“一致性哈希”如何应用于用户易变的分布式Web服务中.一致性哈希可用于实现健壮缓存来减少大型Web应用中系统部分失效带来的负面影响.(维基百科) >>hash算法的单调性 Hash 算法的一个衡量指标是单调性( Monotonicity ),定义如下:单调性是指如果已经有一些内容通过哈希分派到了相应的缓

一致性哈希算法(consistent hashing)

memcache的一致性hash算法使用 http://blog.csdn.net/kongqz/article/details/6695417 一.概述 1.我们的memcache客户端(这里我看的spymemcache的源码),使用了一致性hash算法ketama进行数据存储节点的选择.与常规的hash算法思路不同,只是对我们要存储数据的key进行hash计算,分配到不同节点存储.一致性hash算法是对我们要存储数据的服务器进行hash计算,进而确认每个key的存储位置.  2.常规hash

_00013 一致性哈希算法 Consistent Hashing 探讨以及相应的新问题出现解决

一.业务场景 假如我们现在有12台Redis服务器(其它的什么东西也行),有很多User(用户)的数据数据从前端过来,然后往12台redis服务器上存储,在存储中就会出现一个问题,12台服务器,有可能其中几台Redis服务器上(简称集群A)存了很多的数据,然后另外几台Redis服务器(简称集群B)上存的数据很少,这样的话那 A 上的读写压力就会很大(当然,这个要看你的数据量的大小了,如果你数据量很小的话,基本无压力了,但是数据量很大,那就 ...),对于这样的问题,我们通常的解决办法是什么呢 ?

_00013 一致性哈希算法 Consistent Hashing 新的讨论,并出现相应的解决

笔者博文:妳那伊抹微笑 博客地址:http://blog.csdn.net/u012185296 个性签名:世界上最遥远的距离不是天涯,也不是海角,而是我站在妳的面前.妳却感觉不到我的存在 技术方向:Flume+Kafka+Storm+Redis/Hbase+Hadoop+Hive+Mahout+Spark ... 云计算技术 转载声明:能够转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明,谢谢合作. qq交流群:214293307  idkey=bf80524ac3630cb09

一致性哈希算法在分布缓存中的应用

一.简介 关于一致性哈希算法介绍有许多类似文章,需要把一些理论转为为自己的知识,所以有了这篇文章,本文部分实现也参照了原有的一些方法. 该算法在分布缓存的主机选择中很常用,详见 http://en.wikipedia.org/wiki/Consistent_hashing . 二.算法诞生缘由 现在许多大型系统都离不开缓存(K/V)(由于高并发等因素照成的数据库压力(或磁盘IO等)超负荷,需要缓存缓解压力),为了获得良好的水平扩展性, 缓存主机互相不通信(如Mencached),通过客户端计算K

一致性哈希算法——算法解决的核心问题是当slot数发生变化时,能够尽量少的移动数据

一致性哈希算法 摘自:http://blog.codinglabs.org/articles/consistent-hashing.html 算法简述 一致性哈希算法(Consistent Hashing)最早在论文<Consistent Hashing and Random Trees: Distributed Caching Protocols for Relieving Hot Spots on the World Wide Web>中被提出.简单来说,一致性哈希将整个哈希值空间组织成一

算法 --- 一致性哈希算法

简介 一致性哈希算法在1997年由麻省理工学院提出的一种分布式哈希(DHT)实现算法,设计目标是为了解决因特网中的热点(Hot spot)问题,初衷和CARP十分类似.一致性哈希修正了CARP使用的简 单哈希算法带来的问题,使得分布式哈希(DHT)可以在P2P环境中真正得到应用. 但现在一致性hash算法在分布式系统中也得到了广泛应用,研究过memcached缓存数据库的人都知道,memcached服务器端本身不提供分布式cache的一致性,而是由客户端来提供,具体在计算一致性hash时采用如下