hive与hbase整合

  1. 配置环境.

    hadoop 2.4

    hbase 0.98.3

    hive 0.13.1(源用的mysql)

  2. 配置。

    分2种情况(1.hbase与hive在一台机器上,2.hbase与hive不在同一台机器上)
     (1)hbase与hive在一台机器上

    比较简单,只需要在环境变量里把hbase,hive的home配置好即可。当然也可以按照不在一台进行配置。

#config hadoop
export HADOOP_HOME=/home/hUser/hadoop-2.4.0
export PATH=$HADOOP_HOME/bin:$PATH

#config hbase
export HBASE_HOME=/home/hUser/hbase-0.98.3-hadoop2
export PATH=$PATH:$HBASE_HOME/bin
export HBASE_MANAGES_ZK=true

#config hive
export HIVE_HOME=/home/hUser/apache-hive-0.13.1-bin/
export PATH=$PATH:$HIVE_HOME/bin

(2)hbase与hive不在同一台机器上。

首先需要将hbase下的以hbase开头的jar包,放到hive的lib下,同时修改

<property>
  <name>hive.aux.jars.path</name>
  <value>
        file:///home/hUser/apache-hive-0.13.1-bin/lib/hive-hbase-handler-0.13.0.jar,
        file:///home/hUser/apache-hive-0.13.1-bin/lib/protobuf-java-2.5.0.jar,
        file:///home/hUser/apache-hive-0.13.1-bin/lib/hbase-***.jar,.....等等hbase的jar包,
        file:///home/hUser/apache-hive-0.13.1-bin/lib/hbase-common-0.96.0-hadoop2.jar,
        file:///home/hUser/apache-hive-0.13.1-bin/lib/zookeeper-3.4.5.jar,
        file:///home/hUser/apache-hive-0.13.1-bin/lib/guava-11.0.2.jar</value>
</property>

注意:这块是为了好看,但自己配置的时候一定不要有换行符和空格,还有自己把hbase的jar包补齐。太多了我就不贴出来了。

3. 操作

启动hive

如果在一台机器就正常启动 hive 就ok了

不在一台机器需要指定下hbase的zookeeper的位置,多个用逗号分割

hive -hiveconf hbase.master=127.0.0.1:60000

(1)建表

CREATE TABLE hbase_table_1(key string, value string) 
STORED BY ‘org.apache.hadoop.hive.hbase.HBaseStorageHandler‘
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,cf1:val") 
TBLPROPERTIES ("hbase.table.name" = "xyz1");

(2)插入数据

a.在hbase中插入

put ‘xyz‘,‘test001‘,‘cf1:val‘,‘www.test.com‘

b.在hive中插入(注:数据类型一定要匹配,否则回报key can‘t be null这个错)

insert into hbase_table_1 select n.finishtime, n.url from nginx n;

hive与hbase整合

时间: 2024-10-12 14:30:07

hive与hbase整合的相关文章

Hive(五):hive与hbase整合

配置 hive 与 hbase 整合的目的是利用 HQL 语法实现对 hbase 数据库的增删改查操作,基本原理就是利用两者本身对外的API接口互相进行通信,两者通信主要是依靠hive_hbase-handler.jar工具类. 但请注意:使用Hive操作HBase中的表,只是提供了便捷性,前面章节已经介绍,hiveQL引擎使用的是MapReduce,对于性能上,表现比较糟糕,在实际应用过程中可针对不同的场景酌情使用. 注意:本文介绍的内容适用的版本见我前面章节,HDP2.4.2 ( HBase

hive和Hbase整合

本文部分来源:http://www.it165.net/admin/html/201406/3239.html https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration 创建 表:hbase_hive_1 REATE TABLE hbase_hive_1(key int, value string) STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' W

hive存储处理器(StorageHandlers)以及hive与hbase整合

此篇文章基于hive官方英文文档翻译,有些不好理解的地方加入了我个人的理解,官方的英文地址为: 1.https://cwiki.apache.org/confluence/display/Hive/StorageHandlers 2.https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration 一 存储处理器介绍 通过HIVE存储处理器,不但可以让hive基于hbase实现,还可以支持cassandra JDBC MongoD

hive与hbase整合过程

实现目标 Hive可以实时查询Hbase中的数据. hive中的表插入数据会同步更新到hbase对应的表中. 可以将hbase中不同的表中的列通过 left 或 inner join 方式映射到hive 中的一个视图中. Hive map hbase 1,启动hive hbase 在hive hbase服务启动的情况下, $HIVE_HOME/bin/hive --auxpath $HIVE_HOME/lib/hive-hbase-handler-1.1.0-cdh5.7.1.jar,$HIVE

Hadoop Hive与Hbase整合+thrift

1.  简介 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行. 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析. Hive与HBase的整合功能的实现是利用两者本身对外的API接口互相进行通信,相互通信主要是依靠hive_hbase-handler.jar工具类, 大致意思如图所示

HBase 与Hive数据交互整合过程详解

Hive和Hbase整合理论 1.为什么hive要和hbase整合 2.整合的优缺点 优点: (1).Hive方便地提供了Hive QL的接口来简化MapReduce的使用, 而HBase提供了低延迟的数据库访问.如果两者结合,可以利 用MapReduce的优势针对HBase存储的大量内容进行离线的计算和分析. (2).操作方便,hive提供了大量系统功能 缺点: 性能的损失,hive有这样的功能, 他支持通过类似sql语句的语法来操作hbase 中的数据, 但是速度慢. 3.整合需要做什么样的

Hive HBase 整合

环境说明: l  hadoop:2.4.0 l  Zookeeper:3.4.6 l  Hbase:0.96 l  Hive:0.13.1   1.  Hive整合HBase原理 Hive与HBase整合的实现是利用两者本身对外的API接口互相进行通信,相互通信主要是依靠Hive安装包\apache-hive-0.13.1-bin\lib\hive-hbase-handler-0.9.0.jar工具类,它负责Hbase和Hive进行通信的. Hive和HBase通信原理如下图: 2.  Hive

Hive与Hbase关系整合

近期工作用到了Hive与Hbase的关系整合,虽然从网上参考了很多的资料,但是大多数讲的都不是很细,于是决定将这块知识点好好总结一下供大家分享,共同掌握! 本篇文章在具体介绍Hive与Hbase整合之前,先给大家用一个流程图介绍Hadoop业务的开发流程以及Hive与Hbase的整合在业务当中的必要性.  其中在数据存入hbase—>Hive对数据进行统计分析的这个步骤中就涉及到了Hive与Hbase的整合,所以了解Hive与Hbase的整合是很有必要的. 1.Hive与Hbase整合的必要性 

hive安装配置+与hbase整合

一.hive介绍hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行. 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析. 二.安装hive安装前提是hadoop集群已经安装好,并且采用cdh的yum源,hadoop.hdfs.hbase等已经就绪. yum -y install hive