Cassandra数据分布之5分区器

分区器决定了数据在集群中节点的分布。分区器的功能是通过为每一行数据的分区键(partion key)分配一个令牌(token),然后通过这个令牌(token)将数据保存在cassandra集群中。

Cassandra提供了如下如下4种分区器。Cassandra中的实现如下图:

  • ByteOrderedPartitioner:有序分区器,它将键值数据看做是裸字节。
  • LocalPartitioner:对分区键未做任何处理的分区器。
  • Murmur3Partitioner:基于MurmurHash哈希算法,能将数据均匀地分布在集群上。

    OrderPreservingPartitioner:令牌是基于键值的UTF-8字符串。各行是按照键值的顺序存储的,按照排序顺序对齐物理结构。此分区器查询并不比随机分区器更有效率——它只提供顺序性。它的一个缺点是非常容易让环不均衡,所以非常有可能导致最后大量数据位于某些节点,而其它节点的数据很少。那些存在很多数据的节点,使得环非常不平衡,常常被看做是“热点”。

  • RandomPartitioner:它使用BigIntegerToken存放MD5哈希值,通过哈希值来决定键值放在环上的具体位置。这样做的好处是可以让键值很均匀地分布到集群中,因为这个分布是随机的。它的不足在与区间查询的效率不高,因为在一个指定区间的键值可能会分布在环上很分散的位置,而且键值的区间查询返回的数据也是随机顺序的。

分区器可以通过修改配置文件cassandra.yaml中partitioner的配置来设置。你也可以实现org.apache.cassandra.dht.IPartitioner接口来创建自己的分区器,并放到Cassandra的classpath下。

参考:cassandra权威指南,官网Partitioner

时间: 2024-12-16 08:06:47

Cassandra数据分布之5分区器的相关文章

Apache Flink流分区器剖析

这篇文章介绍Flink的分区器,在流进行转换操作后,Flink通过分区器来精确得控制数据流向. StreamPartitioner StreamPartitioner是Flink流分区器的基类,它只定义了一个抽象方法: public abstract StreamPartitioner<T> copy(); 但这个方法并不是各个分区器之间互相区别的地方,定义不同的分区器的核心在于--各个分区器需要实现channel选择的接口方法: int[] selectChannels(T record,

Parallel中分区器Partitioner的简单使用

Partitioner.Create(1,10,4).GetDynamicPartitions() 为长度为10的序列创建分区,每个分区至多4个元素,分区方法及结果:Partitioner.Create(0, 10, 4).GetDynamicPartitions() 得到3个前闭后开区间: [0, 4)即{0, 1, 2, 3}, [4, 8)即{4, 5, 6, 7}, [8, 10)即{8, 9},  注意被枚举的数字均为数组下标: 为长度为10的序列创建分区,至多4个分区,分区方法及结果

Kafka 分区分配计算(分区器 Partitions )

KafkaProducer在调用send方法发送消息至broker的过程中,首先是经过拦截器Inteceptors处理,然后是经过序列化Serializer处理,之后就到了Partitions阶段,即分区分配计算阶段.在某些应用场景下,业务逻辑需要控制每条消息落到合适的分区中,有些情形下则只要根据默认的分配规则即可.在KafkaProducer计算分配时,首先根据的是ProducerRecord中的partition字段指定的序号计算分区.读者有可能刚睡醒,看到这个ProducerRecord似

spark自定义分区器实现

在spark中,框架默认使用的事hashPartitioner分区器进行对rdd分区,但是实际生产中,往往使用spark自带的分区器会产生数据倾斜等原因,这个时候就需要我们自定义分区,按照我们指定的字段进行分区.具体的流程步骤如下: 1.创建一个自定义的分区类,并继承Partitioner,注意这个partitioner是spark的partitioner 2.重写partitioner中的方法 override def numPartitions: Int = ??? override def

SPARK之分区器

Spark目前支持Hash分区和Range分区,用户也可以自定义分区,Hash分区为当前的默认分区,Spark中分区器直接决定了RDD中分区的个数.RDD中每条数据经过Shuffle过程属于哪个分区和Reduce的个数 只有Key-Value类型的RDD才有分区器的,非Key-Value类型的RDD分区器的值是None 每个RDD的分区ID范围:0~numPartitions-1,决定这个值是属于那个分区的 原文地址:https://www.cnblogs.com/xiangyuguan/p/1

spark自定义分区器

1.spark中默认的分区器: Spark目前支持Hash分区和Range分区,用户也可以自定义分区,Hash分区为当前的默认分区,Spark中分区器直接决定了RDD中分区的个数.RDD中每条数据经过Shuffle过程属于哪个分区和Reduce的个数. 只有Key-Value类型的RDD才有分区器的,非Key-Value类型的RDD分区器的值是None 每个RDD的分区ID范围:0~numPartitions-1,决定这个值是属于那个分区的2. 参考博客:https://www.jianshu.

kafka 自定义分区器

package cn.xiaojf.kafka.producer; import org.apache.kafka.clients.producer.Partitioner; import org.apache.kafka.common.Cluster; import org.apache.kafka.common.PartitionInfo; import org.apache.kafka.common.utils.Utils; import java.util.List; import ja

cassandra,hbase,kafka,elasticsearch redis 对比总结

cassandra: partition分区器有两种方法: RandomPartitioner 一致性哈希       ByteOrderedPartitioner  按照自己大小 那么cassandra为什么能快呢.因为它采取了这么一个解决方案: 数据首先写到 commit log, 然后写到memtable.干完了这两件事,写就算成功了,别的事情您就不用操心了.后面事情是sstable(磁盘),然后是压缩文件 好在cassandra有一个 Bloom filter, 这个东东就是专门用来判断

cassandra的一些概念

分区器Partitioners 在集群内,根据设置的副本数,决定数据如何分发,允许跨机房 具体看 http://teddymaef.github.io/learncassandra/cn/replication/partitioners.html http://blog.csdn.net/limingjian/article/details/8944572 数据的副本数replica 通过cql命令CREATE KEYSPACE,在建立keyspace的时候设置 一致性策略 既然数据有了跨机房的