【转】华为Hbase二级索引（Secondary Index）细节分析

华为在HBTC 2012上由其高级技术经理Anoop Sam John透露了其二级索引方案，这在业界引起极大的反响，甚至有人认为，如果华为早点公布这个方案，hbase的某些问题早就解决了。其核心思想是保证索引表和主表在同一个region server上。

更新：目前该方案华为已经开源，详见：https://github.com/Huawei-Hadoop/hindex

下面来对其方案做一个分析。

1.整体架构

这个架构在Client Ext中设定索引细节，在Balancer中收集信息，在Coprocessor中管理二级索引数据。

2.表创建

在创建表的时候，在同一个region server上创建索引表，且一一对应。

3.插入操作

在主表中插入某条数据后，用Coprocessor将索引列写到索引表中去，写道索引表中的数据的主键为：region开始key+索引名+索引列值+主表row key。这么做，是为了让其在同一个分布规则下，索引表会跟主表在通过region server上，在查询的时候就可以少一次rpc。

4.scan操作

一个查询到来的时候，通过coprocessor钩子，先从索引表中查询范围row，然后再从主表中相关row中扫描获得最终数据。

5. split操作处理

为了使主表和索引表在同一个RS上，要禁用索引表的自动和手动split，只能由主表split的时候触发，当主表split的时候，对索引表按其对应数据进行划分，同时，对索引表的第二个daughter split的row key的前面部分修改为对应的主键的row key。

6. 性能

查询性能极大提升,插入性能下降10%左右

总结，本文对华为hbase使用coprocessor进行二级索引的方案的创建表，插入数据，查询数据的步骤进行了一个粗略分析，以窥其全貌。在使用的时候，可以作为一个参考。

原文出处：邓的博客

时间： 2025-01-02 14:06:17

【转】华为Hbase二级索引（Secondary Index）细节分析的相关文章

【转】华为HBase索引模块应用：HBase二级索引模块：hindex调研 2014年10月16日

文章出处:http://www.batchfile.cn/?p=63 HBase二级索引模块:hindex调研 hindx是HBase的二级索引方案,为HBase提供声明式的索引,使用协处理器对索引表进行自动创建和维护,客户端不需要对数据进行双写.并且hindex采用了一些巧妙的Rowkey编排方式,使索引数据和实际数据分布在同一个Region,实现了较高的查询性能.介绍如下:huawei-hbase-secondary-secondary-index-implementations 代码下载地

HBase二级索引方案总结

转自:http://blog.sina.com.cn/s/blog_4a1f59bf01018apd.html 附hbase如何创建二级索引以及创建二级索引实例:http://www.aboutyun.com/thread-8857-1-1.html 华为二级索引(原理):http://my.oschina.net/u/923508/blog/413129 在HBase中,表格的Rowkey按照字典排序,Region按照RowKey设置split point进行shard,通过这种方式实现的全局

hbase二级索引

二级索引与索引Join是多数业务系统要求存储引擎提供的基本特性,RDBMS早已支持,NOSQL阵营也在摸索着符合自身特点的最佳解决方案.这篇文章会以HBase做为对象来讨论如何基于Hbase构建二级索引与实现索引join.文末同时会列出目前已知的包括0.19.3版secondary index, ITHbase, Facebook方案和官方Coprocessor的介绍. 理论目标在HBase中实现二级索引与索引Join需要考虑三个目标:1,高性能的范围检索.2,数据的低冗余(存储所占的数据量).

HBase二级索引的设计

摘要最近做的一个项目涉及到了多条件的组合查询,数据存储用的是HBase,恰恰HBase对于这种场景的查询特别不给力,一般HBase的查询都是通过RowKey(要把多条件组合查询的字段都拼接在RowKey中显然不太可能),或者全表扫描再结合过滤器筛选出目标数据(太低效),所以通过设计HBase的二级索引来解决这个问题查询需求多个查询条件构成多维度的组合查询,需要根据不同组合查询出符合查询条件的数据 HBase的局限性 HBase本身只提供基于行键和全表扫描的查询,而行键索引单一,对于多维度的

奇虎360 HBASE 二级索引的设计与实践

基于RowKey 的索引问题总结 1.索引单一 2.多维度(字段/列)查询困难多字段分别作为RK,写入多次组合字段作为RK,设计复杂,不灵活 3.不经过索引的并行scan过滤,大量资源消耗,无时效性可言总体设计二级索引构建模式 1)以主数据的列值作为索引数据的RowKey,以主数据的RowKey 作为索引数据的列值,以此来构建指定列作为查询条件的Hbase 二级索引. 2)索引的构建与数据的查询都是分布式.并发式进行的索引设计 1)索引与主数据存放在同一张表的不同Column Fami

CDH Solr Hbase二级索引

基于key-Value store indexer ,solrcloud创建Hbase二级索引首先安装solrcloud,在cloudera manager 上添加solr服务,然后添加key-Value store indexer服务. 首先设置HBASE表的列族REPLICATION_SCOP =>1 如: disable ‘cloud’ alter 'cloud' ,{NAME => 'datainfo',REPLICATION_SCOPE =>'1'} enable ‘clou

HBase二级索引与Join

转自:http://www.oschina.net/question/12_32573 二级索引与索引Join是Online业务系统要求存储引擎提供的基本特性.RDBMS支持得比较好,NOSQL阵营也在摸索着符合自身特点的最佳解决方案.这篇文章会以HBase做为对象来探讨如何基于Hbase构建二级索引与实现索引join.文末同时会列出目前已知的包括0.19.3版secondary index, ITHbase, Facebook和官方Coprocessor方案的介绍. 理论目标在HBase中实现

（转）HBase二级索引与Join

二级索引与索引Join是Online业务系统要求存储引擎提供的基本特性.RDBMS支持得比较好,NOSQL阵营也在摸索着符合自身特点的最佳解决方案.这篇文章会以HBase做为对象来探讨如何基于Hbase构建二级索引与实现索引join.文末同时会列出目前已知的包括0.19.3版secondary index,?ITHbase, Facebook和官方Coprocessor方案的介绍. 理论目标在HBase中实现二级索引与索引Join需要考虑三个目标:1,高性能的范围检索.2,数据的低冗余(存储所占

hbase二级索引构建

参考学习hbase源代码中的二级索引构建代码 IndexBuilder.java /** * * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with this work for additional information * regarding copyright ow

猜你喜欢

在Wamp 添加站点和域名

在httpd.conf中使Include conf/extra/httpd-vhosts.conf生效在conf/extra/httpd-vhosts.conf中加入如下代码 <Virtual ...

一些项目需要的东西整合（3）—— 一些表格的引用

1.边框的输入 <!doctype html><html ng-app=""><head><meta charset="utf- ...

在Android 中调用sqlite数据库

1在Android studio 工程中gradle文件夹右击新建assets文件夹.将建好的sqlite数据库导入其中. 2在主activity中判断app是否是第一次启动调用如下方法: /**检查 ...

Android中的网络编程系列(一):URLConnection

转载请注明出处:http://blog.csdn.net/bettarwang/article/details/41229955 URL(Uniform Resource Locator)对象代表统一 ...

开源服务专题之--------mysql的编译安装

为什么选择MySQL 1:mysql性能卓越,服务稳定,很少出现异常宕机 2:mysql开源免费,无版权制约,自主性及使用成本低 3:产品耦合度,mysql支持多种操作系统,支持多开发语言,特别是ph ...

单链表的建立与打印

建立单链表,并且从头到尾打印单链表 #define _CRT_SECURE_NO_WARNINGS 1 #include<stdio.h> #include<stdlib.h> ...

html播放音乐目前只支持ie

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...

波波讲堂2-（进程，内存等等）

1.ps -ef| grep XXXXXX进程号 ls -l /proc/$PID/exe 哪个脚本产生的进程ls -l /proc/$PID/cwd 进程所运行的目录 2.ps 命令参数 -e 显示 ...

[ACM] hdu 3555 Bomb (数位DP，统计1-N中含有“49”的总数）

Bomb Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 131072/65536 K (Java/Others) Total Submiss ...

三大框架：使用数据源dbcp注意

使用spring整合hibernate时,需要用到数据源,数据源使用apache的dbcp,使用dbcp时需要依赖pool的jar包,选择dbcp和pool时需要注意. DBCP 2 compiles ...

多线程：生产者/消费者模式

生产者/消费者模式实际上,很多后台服务程序并发控制的基本原理都可以归纳为生产者/消费者模式. 生产者消费问题是研究多线程程序时绕不开的经典问题之一,它描述是有一块缓冲区作为仓库,消费者则可以从仓库中 ...

Json与Jsonp介绍

说到AJAX就会不可避免的面临两个问题,第一个是AJAX以何种格式来交换数据?第二个是跨域的需求如何解决?这两个问题目前都有不同的解决方案,比如数据可以用自定义字符串或者用XML来描述,跨域可以通过服 ...

手机判断微信是否安装(转)

private static boolean isWXAppInstalledAndSupported(Context context, IWXAPI api) { // LogOutput.d(TA ...

解决国内NPM安装依赖速度慢问题

不知道各位是否遇到这种情况,使用NPM(Node.js包管理工具)安装依赖时速度特别慢,为了安装Express,执行命令后两个多小时都没安装成功,最后只能取消安装,笔者20M带宽,应该不是我网络的原因 ...

键盘的一些功能

Backspace返回键,Delete是删除键. fn+f5 关闭无线网卡 ctrl+A 全选 ctrl+C 复制 ctrl+v 粘贴 Home键定位行首 End键定义行尾在Excel中选择工作表的 ...

# 动画动画提供一个随着时间改变元素属性方法.典型的用处就是自然而然地使对象变大或改变它的位置.要做一个动画,你得新建一个动画对象,然后在目标对象上运行它.不要忘了你得用‘goog.requir ...

shell脚本学习指南

以下八点不敢说就能成为你shell脚本学习指南de全部,至少可以让你编写出可靠的shell脚本. 1. 指定bash shell 脚本的第一行,#!之后应该是什么? 如果拿这个问题去问别人,不同的人的 ...

hdu 5091 Beam Cannon 离散化+扫描线+线段树

Beam Cannon Time Limit: 3000/1500 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others) Tota ...

mac最新系统安装beego出现kiil 9

(内容来自:http://www.oschina.net/question/2626413_2237311) 应该是最新mac OS 12.04的锅. 现在的解决办法是回退bee到以前版本. cd $ ...

孪扣破退偻q6bu205ds5e5t5fe01

清雅摇了摇头,道:"这关系到我们拍卖场的信誉啊!而且这是大事.这件魂骨的起拍价原本是超过一千万金魂币的.我们还从未出现过千万级别的拍品有问题的情况."这也就是他在霍雨浩身边,两人武 ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.