HBase核心技术点

表的rowkey设计核心思想：

依据rowkey查询最快
对rowkey进行范围查询range
前缀匹配

预分区创建的三种方式

create ‘ns1:t1‘, ‘f1‘, SPLITS => [‘10‘, ‘20‘, ‘30‘, ‘40‘]

create ‘t1‘, ‘f1‘, SPLITS => [‘10‘, ‘20‘, ‘30‘, ‘40‘]

create ‘t1‘, ‘f1‘, SPLITS_FILE => ‘/home/hadoop/data/splits.txt‘, OWNER => ‘johndoe‘
# 在 splits.txt 文件中指定rowkey:
10,
20,
30,
40,
50

create ‘t1‘, {NAME => ‘f1‘, VERSIONS => 5}, METADATA => { ‘mykey‘ => ‘myvalue‘ }

# 指定java预分区类名称
create ‘t1‘, ‘f1‘, {NUMREGIONS => 15, SPLITALGO => ‘HexStringSplit‘}

tail -f 在命令列控制窗口中使用 tail -f,它将会以一定的时间实时追踪.

基于SQL语法查询HBase

Phoenix实现用SQL查询HBase

http://www.cnblogs.com/hbase-community/category/1181796.html

hbase二级索引

使用solr构建hbase二级索引：

https://www.cnblogs.com/kekukekro/p/6340944.html
使用phoenix构建HBase二级索引
https://www.2cto.com/net/201702/601121.html

HBase 表数据压缩

snappy

HBase数据读写流程

https://blog.csdn.net/u011490320/article/details/50814967

HBse中数据管理

hbase中数据删除不是真正的删除，只是做了一个删除标记；在compaction过程中才会真正的删除。满足删除条件的数据：

1. 做了删除标记的

2. 超过版本号限制的

3. 数据生存时间到期的

两种compaction:

1. 合并（minor)

2. 压缩合并(major)

Hive和HBase集成

数据存储在HBase中
hive 表的描述信息存储在hive中
对应元素
1. hive-table hbase-table
2. hive-column hbase-rowkey,hbase-cf-column
3. storehandler
集成方式，如果hive/lib目录中没有相关jar，需要把相关jar软连接到该目录

https://blog.csdn.net/victory0508/article/details/69258686

管理表

创建hive表的时候，指定数据存储在hbase表中。

CREATE TABLE hbase_table_1(key int, value string)
STORED BY ‘org.apache.hadoop.hive.hbase.HBaseStorageHandler‘
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,cf1:val")
TBLPROPERTIES ("hbase.table.name" = "xyz");

外部表

现在已经存在一个HBase表，需要对表中数据进行分析。

CREATE EXTERNAL TABLE hbase_user(id int, name string,age int)
STORED BY ‘org.apache.hadoop.hive.hbase.HBaseStorageHandler‘
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,info:name,info:age")
TBLPROPERTIES ("hbase.table.name" = "user");

本质

Hive就是HBase客户端。

sqoop 把关系型数据库数据导入到hive

HBase与Hue集成

如果跨语言需要启动thrift server

原文地址：https://www.cnblogs.com/tianboblog/p/8908565.html

时间： 2024-11-04 06:38:57

HBase核心技术点的相关文章

云计算的核心技术

云计算的"横空出世"让很多人将其视为一项全新的技术,但事实上它的雏形已出现多年,只是最近几年才开始取得相对较快的发展.确切地说,云计算是大规模分布式计算技术及其配套商业模式演进的产物,它的发展主要有赖于虚拟化.分布式数据存储.数据管理.编程模式.信息安全等各项技术.产品的共同发展.近些年来,托管.后向收费.按需交付等商业模式的演进也加速了云计算市场的转折.云计算不仅改变了信息提供的方式,也颠覆了传统ICT系统的交付模式.与其说云计算是技术的创新,不如说云计算是思维和商业模式的转变. 下

云计算中8项核心技术

From:http://www.iccsz.com/Site/CN/News/2015/01/15/20150115024857824400.htm 全面解读云计算中8项核心技术讯石光通讯网发布时间:2015/1/15 10:45:55 编者:iccsz 点击44次摘要:云计算的“横空出世”让很多人将其视为一项全新的技术,但事实上它的雏形已出现多年,只是最近几年才开始取得相对较快的发展. ICCSZ讯云计算的“横空出世”让很多人将其视为一项全新的技术,但事实上它的雏形已出现多

Trafodion:Transactional SQL on HBase

Trafodion: Transactional SQL on HBase HBase上实时分布式事务处理介绍 HBase的SQL能力一直不足.Phoenix缺乏Join能力,eBay提出的kylin还不够简洁,facebook Presto的HBase连接器还没公开.那么,Trafodion来了.它在HBase上提供了标准SQL功能,并支持事务OLTP.Trafodion是HP的开源举措,培养在惠普实验室和HP-IT开发一个企业级的SQL上的HBase解决方案.惠普拥有超过20年的积累,针对

大数据学习教程：五大核心技术有哪些？

大数据技术的体系庞大且复杂,基础的技术包含数据的采集.数据预处理.分布式存储.NoSQL数据库.数据仓库.机器学习.并行计算.可视化等各种技术范畴和不同的技术层面.首先给出一个通用化的大数据处理框架,主要分为下面几个方面:数据采集与预处理.数据存储.数据清洗.数据查询分析和数据可视化. 一.数据采集与预处理对于各种来源的数据,包括移动互联网数据.社交网络的数据等,这些结构化和非结构化的海量数据是零散的,也就是所谓的数据孤岛,此时的这些数据并没有什么意义,数据采集就是将这些数据写入数据仓库中,把

数道云大数据平台解决方案，Hadoop + HDFS+Hive+Hbase大数据开发整体架构设计

波若大数据平台(BR-odp)Hadoop + HDFS+Hive+Hbase大数据开发工具剖析: HDFS:分布式.高度容错性文件系统,能提供高吞吐量的数据访问,非常适合大规模数据集上的应用,大规模的波若大数据平台(BR-odp)用户部署上1000台的HDFS集群.数据规模高达50PB以上 HDFS和MR共同组成Hadoop分布式系统体系结构的核心.HDFS在集群上实现了分布式文件系统,MR在集群上实现了分布式计算和任务处理.HDFS在MR任务处理过程中提供了文件操作和存储等支持,MR在HDF

详解Kafka: 大数据开发最火的核心技术

详解Kafka: 大数据开发最火的核心技术架构师技术联盟 2019-06-10 09:23:51 本文共3268个字,预计阅读需要9分钟. 广告大数据时代来临,如果你还不知道Kafka那你就真的out了(快速掌握Kafka请参考文章:如何全方位掌握Kafka核心技术)!据统计,有三分之一的世界财富500强企业正在使用Kafka,包括所有TOP10旅游公司,7家TOP10银行,8家TOP10保险公司,9家TOP10电信公司等等. LinkedIn.Microsoft和Netflix每天都用Ka

深入理解Flink核心技术及原理

前言 Apache Flink(下简称Flink)项目是大数据处理领域最近冉冉升起的一颗新星,其不同于其他大数据项目的诸多特性吸引了越来越多人的关注.本文将深入分析Flink的一些关键技术与特性,希望能够帮助读者对Flink有更加深入的了解,对其他大数据系统开发者也能有所裨益.本文假设读者已对MapReduce.Spark及Storm等大数据处理框架有所了解,同时熟悉流处理与批处理的基本概念. 文章转载自:深入理解Flink核心技术一.Flink简介 Flink核心是一个流式的数据流执行引擎,

hbase过滤器（1）

最近在公司做hbase就打算复习下它的过滤器以便不时之需,RowFilter根据行键(rowkey)筛选数据 public void filter() throws IOException { Filter rf = new RowFilter(CompareFilter.CompareOp.LESS, new BinaryComparator(Bytes.toBytes("35643b94-b396-4cdc-abd9-029ca495769d"))); Scan s = new S

[原创]HBase学习笔记（1）-安装和部署

HBase安装和部署使用的HBase版本是1.2.4 1.安装步骤(默认hdfs已安装好) # 下载并解压安装包 cd tools/ tar -zxf hbase-1.2.4-bin.tar.gz # 重命名为hbase mv hbase-1.2.4 hbase # 将hadoop目录下的hdfs-site.xml 和 core-stie.xml拷贝到 hbase下的conf 目录中 cd /home/work/tools/hbase/conf cp /home/work/tools/ha