hive-hbase-handler方式导入hive表数据到hbase表中

Hive与HBase的整合功能的实现是利用两者本身对外的API接口互相进行通信,相互通信主要是依靠hive-hbase-handler.jar工具类 ;

hive-hbase-handler.jar在hive的lib包中而不是在hbase的lib中,hive0.6版本以后;

创建hive表的同时创建hbase表,删除 hive表的同时也会删除对应的hbase表。

参见官方文档:https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration

使用前提:配置好hive和hbase对应的CDH版本,本案例使用的hive版本是hive-0.12.0-cdh5.0.0,HBase使用的版本是hbase-0.96.1.1-cdh5.0.0

添加$HIVE_HOME/conf/hive-site.xml配置属性

<property>
    <name>hive.aux.jars.path</name>
    <value>file:///home/spark/app/hive-0.12.0-cdh5.0.0/lib/hive-hbase-handler-0.12.0-cdh5.0.0.jar,file:///home/spark/app/hive-0.12.0-cdh5.0.0/lib/zookeeper-3.4.5-cdh5.0.0.jar,file:///home/spark/app/hive-0.12.0-cdh5.0.0/lib/hbase-common-0.96.1.1-cdh5.0.0.jar,file:///home/spark/app/hive-0.12.0-cdh5.0.0/lib/hbase-client-0.96.1.1-cdh5.0.0.jar,file:///home/spark/app/hive-0.12.0-cdh5.0.0/lib/hbase-server-0.96.1.1-cdh5.0.0.jar,file:///home/spark/app/hive-0.12.0-cdh5.0.0/lib/hbase-protocol-0.96.1.1-cdh5.0.0.jar,file:///home/spark/app/hive-0.12.0-cdh5.0.0/lib/htrace-core-2.01.jar</value>
</property>

需要将除了hive-hbase-handler之外所有的jar包从$HBASE_HOME/lib下拷贝到$HIVE_HOME/lib下

启动hive:推荐使用hive -hiveconf hive.root.logger=DEBUG,console启动,可以看到更加详细的日志信息

案例一:操作简单表单cf

创建hive-hbase表:

CREATE TABLE hive_hbase_table_kv(key string, value string)
STORED BY ‘org.apache.hadoop.hive.hbase.HBaseStorageHandler‘
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,cf1:val")
TBLPROPERTIES ("hbase.table.name" = "hbase_hive_table_kv");

key与:key对应

value与:val对应

hbase_hive_table_kv为hbase的表名

hive_hbase_table_kv为hive表名

创建hive表并导入数据

CREATE TABLE kv (key STRING, value STRING);
LOAD DATA LOCAL INPATH ‘/home/spark/app/spark-1.0.0-bin-2.3.0-cdh5.0.0/examples/src/main/resources/kv1.txt‘ OVERWRITE INTO TABLE kv;
INSERT OVERWRITE TABLE hive_hbase_table_kv SELECT key, value FROM kv;

查看hive和hbase发现均创建了表,并且在两边均能查询到数据。

案例二:操作简单表多cf

CREATE TABLE hbase_table_2(key string, value1 string, value2 string, value3 string)
STORED BY ‘org.apache.hadoop.hive.hbase.HBaseStorageHandler‘
WITH SERDEPROPERTIES (
"hbase.columns.mapping" = ":key,a:b,a:c,d:e"
);

b/c字段属于a列族,e属于d列族。

默认不指定hbase的表名就和hive的表名相同

导入hive表数据:INSERT OVERWRITE TABLE hbase_table_2 SELECT empno, ename, job, deptno  FROM emp;

案例三:操作分区表

CREATE TABLE hbase_table_3(key string, ename string, job string, sal double) partitioned by(pt string)
STORED BY ‘org.apache.hadoop.hive.hbase.HBaseStorageHandler‘
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,a:b,a:c,d:e")
TBLPROPERTIES ("hbase.table.name" = "hbase_table_3");

导入hive数据:

INSERT OVERWRITE TABLE hbase_table_3 PARTITION(pt=‘2013-08-01‘) SELECT empno, ename, job, sal FROM emp;

注意事项:

与hbase整合的有分区的表在使用hive查询时存在问题: select * from table查询不显示数据,select column from table可以查到数据

为什么select * from xxx 不显示数据?

select * from xxx在普通表中是直接读取HDFS文件,而使用hive-hbase-handler的方式来导入数据的时候,数据是存放在hbase的hdfs上;

在这里是直接从HBase进行查询。查询是成功了,但是hive并不会展示。

hive-hbase-handler方式导入hive表数据到hbase表中

时间: 2024-11-07 13:18:23

hive-hbase-handler方式导入hive表数据到hbase表中的相关文章

ORACLE+PYTHON实战:复制A表数据到B表

最近在学习python ,看到了pythod的oracle,不仅可以一次fetch多条,也可以一次insert多条,想写一个复制A表数据到B表的程序来看看实际效率能不能提高.写完发现,非常惊艳!效率提升了近一倍! 当然可能会认为这个没有实际意义,其实不然. 从A表复制数据到B表有很多中方法,一般直接insert即可: insert into tableA select * from tableB ; 但是当数据量非常大时,到达上亿水准的时候,这样做就很郁闷了,因为本身会跑很慢,又看不到进度,偶尔

Linux下mysql多表数据拆分单表

需求 写代码以前都复制粘贴,菜的一比,第一次碰见一个生活中的实际需求,哎,数据结构和流,线程还是得认真学啊 表结构如下 #!/bin/bash# ** 存储过程名称: ysp.ddl# ** 功能描述: # ** 创建者: wx# ** 创建日期: # ** 修改者: # ** 创建日期: # ** 修改内容: drop table if exists ods_payment_flow_sf7;create table ods_payment_flow_sf7(paymentid        

SQL Server复制表结构和表数据生成新表的语句

参考:http://topic.csdn.net/t/20020621/09/820025.html SELECT   *   INTO   newTableName   FROM   oldTableName 此方法将把旧表的结构和数据同时copy生成新表,不过主键外键约束没有生成,需要手动设置.

如何数据库表数据导出到excel中

1.首先须要有一个NPOI 2.接下来上代码 1 private void button1_Click(object sender, EventArgs e) 2 { 3 //1.通过Ado.net读取数据 4 string sql = "SELECT * FROM ASRS_F1"; 5 using (SqlDataReader reader = SqlHelper.ExecuteReader(sql, CommandType.Text)) 6 { 7 //如果读到数据 8 if (

查询oracle 数据库中回滚段中一个时间点被修改的表数据并还原表中原来数据

利用下面的SQL就可以查处最近更改的数据. SQL> SELECT ID,NAME,VERSIONS_STARTTIME,VERSIONS_ENDTIME,VERSIONS_OPERATION FROM TEST VERSIONS BETWEEN TIMESTAMP MINVALUE AND MAXVALUE WHERE VERSIONS_STARTTIME IS NOT NULL ORDER BY VERSIONS_STARTTIME DESC; 通过以上小实验可以看出,VERSIONS_ST

mysql 存储过程复制A表数据到B表

create procedure sys_message_user_for_busbase() begin -- 声明一个标志done, 用来判断游标是否遍历完成 DECLARE done INT DEFAULT 0; -- 声明一个变量,用来存放从游标中提取的数据 -- 特别注意这里的名字不能与由游标中使用的列明相同,否则得到的数据都是NULL DECLARE tid varchar(50) DEFAULT NULL; DECLARE tname varchar(50) DEFAULT NUL

Python抓取Excel表数据至MySQL表

#encoding=utf-8 import xlrd import MySQLdb data=xlrd.open_workbook('test.xlsx') table=data.sheets()[0] nrows=table.nrows ncols=table.ncols tabledict={} for i in range(nrows): tabledict[i]=table.row_values(i) print tabledict[2] print tuple(tabledict[2

将excel表数据导入sqlserver2008R2 报错

错误信息: 正在复制到 [dbo].[Sheet1sss$] (错误)消息错误 0xc020901c: 数据流任务 1: 输出“Excel 源输出”(9) 上的 输出列“FDESC”(93) 出错.返回的列状态是:“文本被截断,或者一个或多个字符在目标代码页中没有匹配项.”. (SQL Server 导入和导出向导) 错误 0xc020902a: 数据流任务 1: “输出列“FDESC”(93)”由于发生截断而失败,而且针对“输出列“FDESC”(93)”的截断行处理设置指定截断时出错.在指定组

mysql清空表数据

note:生产环境中需要数据库有脏数据,需要清空表数据并保留数据结构. 步骤: 借助工具SQLyog 一.导出数据库结构 导出test.sql 二.进入数据库执行drop 三.导入表结构 结果展示:清空了表数据,但是表结构没变化.