Hbase：RowKey和Filter效率比较

范围查询的方式：1.按RowKey查询 2.filter设置ColumnValue的条件

对于多个Column存储，从关系数据库中由复合索引的表迁移过来的，自然想到的是在hbase上加二级索引，但是效率却不好，分析一下原因：

Hbase按索引建表

　　在HBase中，表格的Rowkey按照字典排序，Region按照RowKey设置split point进行shard，通过这种方式实现的全局、分布式索引，成为了其成功的最大的砝码

　　单一的通过Rowkey检索数据的方式，不再满足更多应用的需求，比如不能像SQL一样检索数据，select * from table where col=val。可是，HBase之前的定位是大表的存储，要进行这样的查询，往往是要通过类似Hive、Pig等系统进行全表的MapReduce计算，这种方式既浪费了机器的计算资源，又因高延迟使得应用黯然失色。于是出现了HBase二级索引的方案。

　　每一个索引建立一个表，然后依靠表的row key来实现范围检索。row key在HBase中是以B+ tree结构化有序存储的，所以scan起来会比较效率。
单表以row key存储索引，column value存储id值或其他数据，这就是Hbase索引表的结构。

Hbase QualifierFilter用于过滤qualifier，也就是一个列族里面data:xxx，冒号后面的字符串

hack操作

hbase列族里有许多列

HBase高性能复杂条件查询引擎

时间： 2024-12-30 00:32:25

Hbase：RowKey和Filter效率比较的相关文章

ORACLE使用WITH AS和HINT MATERIALIZE优化SQL解决FILTER效率低下

在做项目的过程中,一个页面使用类似如下的SQL查询数据,为了保密和使用方便,我把项目中有关的表名和字段替换使用ORACLE数据库中的系统表和字段. 在我所做的项目中,类似ALL_TABLES的表中大概有8W多条数据,下面这个查询SQL很慢. WITH PARAMS AS (SELECT '' USER_ID, '' SDATE, '%' || '' || '%' SNAME FROM DUAL) SELECT AU.USERNAME, AU.USER_ID FROM ALL_USERS A

Hbase Rowkey设计

因为一直在做hbase的应用层面的开发,所以体会的比较深的一点是hbase的表结构设计会对系统的性能以及开销上造成很大的区别,本篇文章先按照hbase表中的rowkey.columnfamily.column.timestamp几个方面进行一些分析.最后结合分析如何设计一种适合应用的高效表结构. 1.表的属性 (1)最大版本数:通常是3,如果对于更新比较频繁的应用完全可以设置为1,能够快速的淘汰无用数据,对于节省存储空间和提高查询速度有效果.不过这类需求在海量数据领域比较小众. (2)压缩算法:

Hbase rowkey设计一

转自 http://blog.csdn.net/lifuxiangcaohui/article/details/40621067 hbase所谓的三维有序存储的三维是指:rowkey(行主键),column key(columnFamily+qualifier),timestamp(时间戳)三部分组成的三维有序存储. 1.rowkey,我们知道rowkey是行的主键,而且hbase只能用个rowkey,或者一个rowkey范围即scan来查找数据.所以 rowkey的设计是至关重要的,关系到你应

HBase学习（十八）Hbase rowkey设计一

hbase所谓的三维有序存储的三维是指:rowkey(行主键),column key(columnFamily+qualifier),timestamp(时间戳)三部分组成的三维有序存储. 1.rowkey,我们知道rowkey是行的主键,而且hbase只能用个rowkey,或者一个rowkey范围即scan来查找数据.所以 rowkey的设计是至关重要的,关系到你应用层的查询效率.我们知道,rowkey是以字典顺序排序的.而存储的字节码,字典排序,我们知道,如果是字母,那就是字母的顺序,比如

Hbase Rowkey设计原则

Hbase是三维有序存储的,通过rowkey(行键),column key(column family和qualifier)和TimeStamp(时间戳)这三个维度可以对HBase中的数据进行快速定位. Hbase中Rowkey可以唯一标识一行记录,在Hbase查询的时候,有以下几种方式: 1.通过get方式,指定rowkey获取唯一一条记录 2.通过scan方式,设置StartRow和EndRow参数进行范围匹配 3.全表扫描,即直接扫描整张表中所有行记录 Rowkey长度原则 rowkey是

HBase Rowkey的散列与预分区设计

转自:http://www.cnblogs.com/bdifn/p/3801737.html 问题导读:1.如何防止热点?2.如何预分区?扩展:为什么会产生热点存储? HBase中,表会被划分为1...n个Region,被托管在RegionServer中.Region二个重要的属性:StartKey与EndKey表示这个Region维护的rowKey范围,当我们要读/写数据时,如果rowKey落在某个start-end key范围内,那么就会定位到目标region并且读/写到相关的数据.简单地说

Hbase rowkey热点问题

当处理由连续事件得到的数据时,即时间上连续的数据.这些数据可能来自于某个传感器网络.证券交易或者一个监控系统.它们显著的特点就是rowkey中含有事件发生时间.带来的一个问题便是HBase对于row的不均衡分布,它们被存储在一个唯一的rowkey区间中,被称为region,区间的范围被称为Start Key和End Key. 对于单调递增的时间类型数据,很容易被散列到同一个Region中,这样它们会被存储在同一个服务器上,从而所有的访问和更新操作都会集中到这一台服务器上,从而在集群中形成一个ho

HBase rowkey设计实例

需求:绘制渠道用户的每日趋势(每分钟一组数据一天1440组,2000+个渠道,区分新/老用户,2*1440*2000+=576万+/每天),需要保存90天. 查询条件:渠道号.新or老用户.日期 rowkey:渠道_日期_新or老用户_小时分钟(hhmm) 连接HBase from thrift.protocol import TBinaryProtocol from thrift.transport import TSocket from thrift.transport import TTr

HBase的rowkey设计（含实例）

转自:http://www.aboutyun.com/thread-7119-1-1.html 对于任何系统的数据设计,我们都想提高性能,达到资源最大化利用,那么对于hbase我们产生如下问题: 1.hbase rowkey设计如何才能提高性能?2.hbase rowkey如何设计才能散列到不同的节点上? 访问hbase table中的行,只有三种方式: 1 通过单个row key访问2 通过row key的range3 全表扫描文中可能涉及到的API: Hadoop/HDFS:http://

猜你喜欢

【原创】性能测试之——网络环境分析

性能测试之——网络环境分析首先,我们需要了解宽带上网时的网络带宽环境概念: 这里指的是带宽网速的单位计算方式方法及关系. 在计算机网络.IDC机房中,其宽带速率的单位用bps(或b/s)表示:换算关 ...

内存损坏问题的演示样例及分析

原文以演示样例代码系统的讲述了三种内存损坏的情况: 全局内存.栈损坏及堆损坏, 以及它们产生的原因. 粗略整理例如以下. Global Memory Corruption 即全局变量的内存使用出了问题 ...

快速排序算法（C#实现）

转载:http://www.cnblogs.com/mingmingruyuedlut/archive/2011/08/17/2143062.html 想到了快速排序,于是自己就用C#实现了快速排序的 ...

python 常用第三方模块

除了内建的模块外,Python还有大量的第三方模块. 基本上,所有的第三方模块都会在https://pypi.python.org/pypi上注册,只要找到对应的模块名字,即可用pip安装. 本章介绍 ...

Filebeat中文指南

Filebeat中文指南翻译自:https://www.elastic.co/guide/en/beats/filebeat/current/index.html 译者:kerwin 鸣谢:tory ...

[email protected]提高性能

在页面上可以用@Styles.Render("~/Content/css") 来加载css 首先要在App_Start 里面BundleConfig.cs 文件里面添加要包含的c ...

mysql学习笔记第八天

where,group by,having重新详解 where的用法: where与in的配合使用,in(值1,值2,...)表示结果在值1,值2,...其中任何一个. 聚合函数和group by的用 ...

Linux命令使用（homework）

1. 新安装一台RHEL 6.x 或 CentOS 6.x 虚拟机 1)关闭防火墙.SELinux [[email protected] ~]#serviceiptables stop [[email ...

Mongodb主从复制开启安全认证

2.1.1部署mongodb主从实例: Mongodb-master实例环境:mongodb-master 配置文件先注释掉验证参数:#auth = true 启动mongodb-master 然后 ...

如何解决GBK的编码的文件中的中文转换成为UTF-8编码的文件而且不乱码

首先我们必须明确一点,为什么正常转换会乱码? 因为我们的数据写入是GBK写入的,然后展示的话是按照文件保存形势展示的,前面保存形势是GBK,一致,所以不乱码,而后面将保存形势变成了UTF-8,但是写入 ...

Vim编程下自创Makefile模板

前言一直都对Linux和Vim情有独钟,其实windows也很不错,因为工作上难免有些情况只能使用windows进行开发,包括有些API或者SDK都只有windows版本,只是用Linux的时候就感 ...

代码大全2笔记-欢迎进入软件构建的世界

1.1 什么是软件构建 “构建”一词,在软件领域之外的含义,我们开一想到的就是“建筑工人”在建设一栋房屋.一所学校.乃至一座摩天大楼时所做的工作. 如果开发软件就像写一个hello world,或者就 ...

OC基础--Hello Shit

/* Foundation.h为主头文件, 主头文件中又拷贝了该工具箱中所有工具的头文件, 我们只需要导入主头文件就可以使用该工具箱中所有的工具, 避免了每次使用都要导入一个对应的头文件工具箱的 ...

mysql 练习（有空就练）

mysql -h192.168.137.10 -uroot -p123 mysql -uroot -p123 mysqladmin -uroot -p password "redha ...

脑洞大开--一条项目中常用的linux命令引发的经典算法题

小时候家里定了<读者>的月刊,里面记录一个故事:说有有个偏僻的乡村一日突然来了一个美女,她携着万贯家财子女在当地安家落户,成了当地的乡绅.她让她的子女世世代代的保守这个秘密,直到这个秘密不 ...

验证输入两位小数

/** * 验证输入两位小数 * * @param 待验证的字符串 * @return 如果是符合格式的字符串,返回 <b>true </b>,否则为 <b>fal ...

一起talk C栗子吧（第一百六十三回：C语言实例--三目运算符）

各位看官们,大家好,上一回中咱们说的是套接字知识体系图的例子,这一回咱们说的例子是:三目运算符.闲话休提,言归正转.让我们一起talk C栗子吧! 看官们,我们在前一章回中对套接字进行了归纳和总结,从 ...

3.多线程NSOperation

1.NSOperation的基本操作使用NSOperation的两个子类,NSInvocationOperation 和 NSBlockOperation 创建操作,然后将操作添加到队列中去执行 / ...

图片搜索的原理

http://www.zhihu.com/question/19726630 Google 图片搜索的原理是什么? 1 条评论分享按投票排序按时间排序 18 个回答 389赞同反对,不会显示你的姓 ...

iOS真机系列之真机调试

iOS真机系列之真机调试前提要想真机调试,就必须成为苹果的开发者点击进入苹果开发者中心开发者账号分类编号性质价格其他 1 个人 99$ 申请简单,付钱就行,688人民币 2 企业(公司) ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.017 s.