【HBase】HBase的RK设计、避免热点

一、HBase的RK设计

HBase读写数据大多数是通过RK，MemStore/HFile存储也是按照字典顺序排列的RK存储，所以要关注RK。

RowKey设计原则：

1）长度原则：

RowKey不应该超过16字节，因为若是过长再以KV形式存储，对于HFile和MemStore来说会极大的占用存储空间。

2）唯一原则：

保证RowKey的唯一性，若向HBase中同一张表插入相同RowKey的数据，则原先存在的数据会被新的数据覆盖

3）排序原则：

RowKey是按照字典序排序的。HBase中的数据永远是根据RowKey的字典排序来排序的。

4）散列原则：

设计的RowKey应均匀的分布在各个HBase节点上。能将 RegionServer的负载均衡，否则容易产生所有新数据都在一个 RegionServer 上堆积的现象。

二、HBase如何避免热点

HBase表的数据是按照RowKey来分散到不同的Region，不合理的RowKey设计会导致热点问题，热点问题是大量的客户端直接访问集群中的一个或极少数的节点，而集群中的其他节点却处于相对空闲的状态，从而影响对HBase的读写性能。

1、加盐

在RK前面加添加固定长度的随机数前缀。可以让数据分散在不同的Regin上。

缺点：增加了读的开销。

2、hash

使用将hash(rk)的全部或者只取hash值的长度前4位+rk组成新的RowKey，这里说的hash包含MD5，sha1,sha256,sha512等算法，并不是仅限于Java的Hash值计算。

缺点：同样不利于读。

3、reverse反转

?

4、时间戳反转

?

字段的选择：

一定取决于你的最大的需求，结合具体的查询条件，高频率的尽可能的放到RK里面，现有如下两列数据以及四种需求，如何设计RowKey？

userid orderno skuname skuprice skunum skusum ordercretime
jepson 0001 西瓜 10 5 50 2019-07-07 12:00:00
jepson 0002 南瓜 10 50 500 2019-07-08 12:00:00

# 需求
1)根据用户查询订单最新记录
where userid=jepson order by ordercretime desc limit 1

2)
where userid=jepson and (ordercretime>=‘xxx‘ and ordercretime<=‘xxxx‘)

3)根据时间段查询订单记录
where (ordercretime>=‘xxx‘ and ordercretime<=‘xxxx‘)

4)根据用户买了西瓜的订单记录
where userid=jepson and skuname=‘西瓜‘

根据以上原则及其方法和综上所述，RowKey=hash(userid).substring(0, 4)+userid+ (Long.Max_Value - timestamp)，但是要注意 (Long.Max_Value - timestamp)要固定长度用0补齐。

例子：

?

最终的rowkey=hash(UserId).substring(0, 4)+UserId+Long.Max_Value - timestamp

调优（region个数）：
1个region memstore额外的开销为hbase.hregion.memstore.mslab.chunksize=2m，如果你的一张表有20个region，那么额外开销为40M，一百张表就是100 * 40M = 4G。所以建议小表region个数为1，中表region个数为5，大表为20，1台rs节点的region 是100-200个。

原文地址：https://www.cnblogs.com/huomei/p/12112794.html

时间： 2024-08-01 09:53:32

【HBase】HBase的RK设计、避免热点的相关文章

HBase二级索引的设计

摘要最近做的一个项目涉及到了多条件的组合查询,数据存储用的是HBase,恰恰HBase对于这种场景的查询特别不给力,一般HBase的查询都是通过RowKey(要把多条件组合查询的字段都拼接在RowKey中显然不太可能),或者全表扫描再结合过滤器筛选出目标数据(太低效),所以通过设计HBase的二级索引来解决这个问题查询需求多个查询条件构成多维度的组合查询,需要根据不同组合查询出符合查询条件的数据 HBase的局限性 HBase本身只提供基于行键和全表扫描的查询,而行键索引单一,对于多维度的

（转）HBase 的原理和设计

转自:HBase的原理和设计 HBase架构:

Cassandra与HBase都是被设计用于管理非常大的数据集

在java商城开发中我们都清楚的知道Cassandra与HBase都是NoSQL数据库.总体上看,这意味着用户无法使用SQL数据库.不过,Cassandra使用的是CQL(Cassandra 查询语言),其语法有明显模仿SQL的痕迹. 在jsp商城开发中两者都被设计用于管理非常大的数据集.HBase文件声称一个HBase数据库可以拥有数亿个,甚至是数十亿个行.此外,用户还被建议继续使用关系型数据库.两者都是分布式数据库,不仅仅是在数据的存储方式上,在数据访问方式上亦是如此.客户端可以与集群

HBase应用：Table设计

背景知识 HBase基本类型定义: Table:表 RowKey:行健,主键 Column Family:列族,包含一个或者多个相关列 Column:属于某一个columnfamily,familyName:columnName,每条记录可动态添加 timestamp:每次操作对应的时间戳,支持用户自定义,默认为当前时间的毫秒值 value:值,和timestamp一起支持多version的概念通过HBase Shell可以拿到一条数据,如下: hbase(main):007:0> scan

奇虎360 HBASE 二级索引的设计与实践

基于RowKey 的索引问题总结 1.索引单一 2.多维度(字段/列)查询困难多字段分别作为RK,写入多次组合字段作为RK,设计复杂,不灵活 3.不经过索引的并行scan过滤,大量资源消耗,无时效性可言总体设计二级索引构建模式 1)以主数据的列值作为索引数据的RowKey,以主数据的RowKey 作为索引数据的列值,以此来构建指定列作为查询条件的Hbase 二级索引. 2)索引的构建与数据的查询都是分布式.并发式进行的索引设计 1)索引与主数据存放在同一张表的不同Column Fami

Hbase的存储 Rowkey设计

Hbase在生态系统中的位置 Hbase存储的逻辑视图 Hbase的存储格式 Hbase写数据流程 Hbase快速响应数据 Hbase在生态系统中的位置 HBase位于结构化存储层,Hadoop HDFS为HBase提供了高可靠性的底层存储支持,Hadoop MapReduce为HBase提供了高性能的计算能力,Zookeeper为HBase提供了稳定服务和failover机制. Hbase存储的逻辑视图 1)行键(RowKey) -- 行键是字节数组, 任何字符串都可以作为行键:-- 表中的行

HBase应用开发回顾与总结系列之四：HBase配置管理类接口设计

利用Eclipse进行HBase应用开发时,至少需要确定三个配置信息,如下表所示: #hbase config #HMaster服务部署主机及端口号 hbase.master=hdp-wuyong:60010 #Zookeeper端口号 hbase.zookeeper.property.clientPort=2181 #Zookeeper服务部署主机信息 hbase.zookeeper.quorum=hdp-songjiang,hdp-lujunyi,hdp-wuyong 我们将以上信息配置

hbase表设计优化原则 ***** 生产环境中使用小结

2019/2/28 星期四 hbase表设计优化原则 https://www.cnblogs.com/qingyunzong/p/8696962.html表设计1.列簇设计追求的原则是:在合理范围内能尽量少的减少列簇就尽量减少列簇. 最优设计是:将所有相关性很强的 key-value 都放在同一个列簇下,这样既能做到查询效率最高,也能保持尽可能少的访问不同的磁盘文件. 以用户信息为例,可以将必须的基本信息存放在一个列族,而一些附加的额外信息可以放在另一列族.2.RowKey 设计 HBas

HBase原理和设计

一篇不错的介绍HBase基本原理的文章,转载自:http://www.sysdb.cn/index.php/2016/01/10/hbase_principle/ ,感谢原作者. 简介 HBase —— Hadoop Database的简称,Google BigTable的另一种开源实现方式,从问世之初,就为了解决用大量廉价的机器高速存取海量数据.实现数据分布式存储提供可靠的方案.从功能上来讲,HBase不折不扣是一个数据库,与我们熟悉的Oracle.MySQL.MSSQL等一样,对外提供数据的

猜你喜欢

转adb Shell root 权限

因为开发需要,我经常会用到adb这个工具(Android Debug Bridge),我们都知道adb shell默认是没有root权限的,修改系统文件就很不方便了,adb push一个文件就提示Pe ...

指针 &取地址标志

char * a1; short * b1; int * c1; long * d1; 只要带有*号,都占4个字节,不管*号多少个都是一样. 要查看一个变量的所占的类型,就把变量名去掉,就是它所占的类 ...

hadoop mapreduce lzo

import com.hadoop.compression.lzo.LzoIndexer; import com.hadoop.compression.lzo.LzopCodec; FileOutpu ...

编译时IOS Device 无法选择的情况

问题描述:当你项目开发环境Xocode版本高于你本地Xocode 编译版本时,在本地运行会出现如下错误: 解决: 重写调整Deloyment Target 的版本注:还有一种情况会出现如上错误,并 ...

【Unity】A*算法的GUI实现

前言 A*算法是常用的游戏算法之一,也是初学者比较难掌握的一个算法. 本文在Unity中以GUI的方式形象的再现了A*算法的详细步骤, 包括地图的搜索.FGH的计算以及开启关闭列表的变化等. 博文首发 ...

【leetcode刷题笔记】Spiral Matrix II

Given an integer n, generate a square matrix filled with elements from 1 to n2 in spiral order. For ...

CSDN博客QQ加群、微信

对于QQ加群我一直是拒绝的,不是自己摆姿态,而是实在没有这种影响力和能力.然而今日一朋友的话改变了我这种想法,所以尝试在CSDN博客首页上增加QQ加群功能.此博客也就权当一个记录(主要是为了上传一张二 ...

《大话数据结构》笔记（4-1）--栈与队列：栈

栈的Java实现代码: https://github.com/Lyu0709/data-structure/blob/master/src/com/coding/basic/stack/Stack.j ...

Android 去除最上面应用名称及图标

@Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); r ...

写脚本的一些心得-----------------------历史数据迁移到分表

历史数据迁移到分表的.(以前单表几十G的表,需要做优化分表) 背景: 之前项目因为历史原因使用的是mssql,其中有大量的各种log表,需要完整地迁移到mysql的按照日期分表的分表里.由于数据量大和 ...

JAVA学习-Tomcat服务器介绍

Apache的开源web服务器.可以解析php,js,css,一起jsp/Servlet容器. 安装Tomcat7安装包. 第一步,先下载Tomcat服务器. 下载地址 http://tomcat.a ...

java的集合类【转】

在JDK API中专门设计了一组类,这组类的功能就是实现各种各样方式的数据存储,这样一组专门用来存储其它对象的类,一般被称为对象容器类,简称容器类,这组类和接口的设计结构也被统称为集合框架(Colle ...

编程算法 - 萨鲁曼的军队(Saruman's Army) 代码(C)

萨鲁曼的军队(Saruman's Army) 代码(C) 本文地址: http://blog.csdn.net/caroline_wendy 题目: 直线上有N个点, 每一个点, 其距离为R以内的区域 ...

css选择器大于号>的作用是什么

css选择器大于号>的作用是什么:本章节介绍一下CSS选择器中的大于号的作用.由于以前浏览器支持的问题,可能吃选择器较少使用,但是随着时间的推移,版本的更新,兼容性已经不是问题,所以它的应用也就 ...

用eclipse输出名字

public class Name { public static void main(String[] args) { // TODO 自动生成的方法存根 System.out.println(&q ...

MYSQL和ORACLE的一些区别

原文:http://www.cnblogs.com/wujin/archive/2012/02/02/2336055.html 有很多应用项目, 刚起步的时候用MYSQL数据库基本上能实现各种功能需求 ...

iOS之webview加载网页、文件、html的方法

UIWebView 是用来加载加载网页数据的一个框.UIWebView可以用来加载pdf.word.doc 等等文件生成webview 有两种方法,1.通过storyboard 拖拽 2.通过a ...

C#调用RESTful API

如今非常多的网络服务都用RESTful API来实现. 比方百度的搜索推广API介绍使用Rest原因:REST+JSON风格的API相比SOAP+XML,优点是:调用更加灵活.也更easy扩展:JSO ...

读《构建之法》第6~7章感想

第六章本章节要是谈论敏捷的流程.敏捷流程的问题和解法.敏捷的团队.敏捷的总结以及敏捷的故事,知道了敏捷能极大的提高了团队的能动性.在软件开发项目中敏捷的流程安排到每个团队的成员,但是对于每个团队的成 ...

整型数字的逆序输出

例如"123456"输出为"65431". 方法一: 1 public class Dao{ 2 public static void main(String[ ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.