Hive集成HBase;安装pig

Hive集成HBase

配置

将hive的lib/中的HBase.jar包用实际安装的Hbase的jar包替换掉

cd /opt/hive/lib/

ls hbase-0.94.2*

rm -rf hbase-0.92*

cp /opt/hbase/hbase-0.94.2*

将Hive的lib/中的zookeeper.jar包用HBase中lib/中的替换掉

步骤同上

在hive-site.xml中添加:

<property>

<name>hive.aux.jars.path</name>

<value>file:///opt/hive/lib/hive-hbase-handler-0.9.0.jar,file:///opt/hive/lib/hbase-0.94.2.jar,file:///opt/hive/lib/zookeeper-3.4.3.jar</value>

</property>

运行

cd /opt/hive/bin

./hive -hiveconf hbase.master=master:60000

流程如下:

先启动hbase,才能在hive里创建表;

在hive创建表后,在hbase你添加数据;

===========启动hbase,并在其中添加数据==============

[[email protected] bin]$ cd /opt/hbase/bin 
[[email protected] bin]$ ./start-hbase.sh

[[email protected] bin]$ ./hbase shell

在hbase中添加数据

hbase(main):004:0> put ‘htest‘,‘1‘,‘f:values‘,‘test‘

hbase(main):005:0> scan ‘htest‘

===============启动hive,并创建表格===========

cd /opt/hive/bin

./hive -hiveconf hbase.master=master:60000

hive> create table htest(key int,value string) stored by ‘org.apache.hadoop.hive.hbase.HBaseStorageHandler‘ with serdeproperties (‘hbase.columns.mapping‘=‘:key,f:value‘) tblproperties(‘hbase.table.name‘=‘htest‘);

hive> show tables;

hive> select * from htest;

安装Pig

解压并安装

tar -zxvf pig-0.10.0.tar.gz /opt/

mv pig-0.10.0/ pig

chown -R hadoop:hadoop pig

配置

因为pig/conf里没有xxx-en.vsh文件,所以在pig/bin理修改pig

cd /opt/pig/bin

vi pig

添加下面内容:

export JAVA_HOME=/usr/program/jdk1.6.0_13/

export PIG_INSTALL=/opt/pig

export HADOOP_INSTALL=/home/hadoop/hadoop-env/hadoop-1.0.1/

export PATH=$PIG_INSTALL/bin:HADOOP_INSTALL/bin:$PATH

export PIG_CLASSPATH=$HADOOP_INSTALL/conf

执行

先启动hadoop,再启动hivve

cd /opt/hive/bin

./pig

=======上传数据到hadoop hdfs=========================

hadoop fs -copyFromLocal /opt/data/test.txt /opt/data/test.txt 将电脑数据上传到hadoop fs中

hadoop fs -ls /opt/data/test.txt

hadoop fs -cat /opt/data/test.txt

=========pig中显示数据========================

grunt>A = LOAD ‘/opt/data/test.txt‘ USING PigStorage(‘#‘) AS (id,name);

grunt> B = FOREACH A GENERATE name;

grunt> STORE B INTO ‘opt/data/dist.txt‘ USING PigStorage(‘\t‘);

grunt> dump A;

Pig Latin常用命令

LOAD....USING PigStorage(‘‘)......AS......;

FOREACH......GENERATE......;

FILTER......BY......;

DUMP;

STORE......INTO;

GROUP ......BY;

[[email protected] bin]$ hadoop fs -ls /user/hive/warehouse/my

查看hive中的数据仓库

时间: 2024-10-10 23:56:02

Hive集成HBase;安装pig的相关文章

Hive On HBase实战

1.概述 HBase是一款非关系型.分布式的KV存储数据库.用来存储海量的数据,用于键值对操作.目前HBase是原生是不包含SQL操作,虽然说Apache Phoenix可以用来操作HBase表,但是需要集成对应的Phoenix依赖包到HBase集群中,同时需要编写对应的Schema才能实现SQL操作HBase. 本篇博客,笔者将为大家介绍另一位一种SQL方式来操作HBase,那就是Hive. 2.内容 2.1 使用场景 熟悉大数据的同学应该都知道,Hive是一个分布式的数据仓库,它能够将海量数

数据导入(一):Hive On HBase

Hive集成HBase可以有效利用HBase数据库的存储特性,如行更新和列索引等.在集成的过程中注意维持HBase jar包的一致性.Hive与HBase的整合功能的实现是利用两者本身对外的API接口互相进行通信,相互通信主要是依靠hive_hbase-handler.jar工具类. 整合hive与hbase的过程如下: 1.将HBASE_HOME下的 hbase-common-0.96.2-hadoop2.jar 和 zookeeper-3.4.5.jar 拷贝(覆盖)到HIVE_HOME/l

大数据时代之hadoop(六):hadoop 生态圈(pig,hive,hbase,ZooKeeper,Sqoop)

大数据时代之hadoop(一):hadoop安装 大数据时代之hadoop(二):hadoop脚本解析 大数据时代之hadoop(三):hadoop数据流(生命周期) 大数据时代之hadoop(四):hadoop 分布式文件系统(HDFS) 大数据时代之hadoop(五):hadoop 分布式计算框架(MapReduce) hadoop是有apache基金会所开发的分布式系统基础架构,其主要提供了两方面的功能:分布式存储和分布式计算.其中分布式存储是分布式计算的基础,在hadoop的实现里面,提

Hbase总结(一)-hbase命令,hbase安装,与Hive的区别,与传统数据库的区别,Hbase数据模型

Hbase总结(一)-hbase命令 下面我们看看HBase Shell的一些基本操作命令,我列出了几个常用的HBase Shell命令,如下: 名称 命令表达式 创建表 create '表名称', '列名称1','列名称2','列名称N' 添加记录 put '表名称', '行名称', '列名称:', '值' 查看记录 get '表名称', '行名称' 查看表中的记录总数 count  '表名称' 删除记录 delete  '表名' ,'行名称' , '列名称' 删除一张表 先要屏蔽该表,才能对

新闻网大数据实时分析可视化系统项目——12、Hive与HBase集成进行数据分析

(一)Hive 概述 (二)Hive在Hadoop生态圈中的位置 (三)Hive 架构设计 (四)Hive 的优点及应用场景 (五)Hive 的下载和安装部署 1.Hive 下载 Apache版本的Hive. Cloudera版本的Hive. 这里选择下载Apache稳定版本apache-hive-0.13.1-bin.tar.gz,并上传至bigdata-pro03.kfk.com节点的/opt/softwares/目录下. 2.解压安装hive tar -zxf apache-hive-0.

新闻实时分析系统Hive与HBase集成进行数据分析

(一)Hive 概述 (二)Hive在Hadoop生态圈中的位置 (三)Hive 架构设计 (四)Hive 的优点及应用场景 (五)Hive 的下载和安装部署 1.Hive 下载 Apache版本的Hive. Cloudera版本的Hive. 这里选择下载Apache稳定版本apache-hive-0.13.1-bin.tar.gz,并上传至bigdata-pro03.kfk.com节点的/opt/softwares/目录下. 2.解压安装hive tar -zxf apache-hive-0.

新闻实时分析系统Hive与HBase集成进行数据分析 Cloudera HUE大数据可视化分析

1.Hue 概述及版本下载 1)概述 Hue是一个开源的Apache Hadoop UI系统,最早是由Cloudera Desktop演化而来,由Cloudera贡献给开源社区,它是基于Python Web框架Django实现的.通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job等等. 2)下载 CDH版本下载 官网下载 2.编译安装 1)解压 tar -zxf hue-3.9.0-cdh5.5.0.

pig、hive以及hbase的作用

Pig Pig是一种数据流语言,用来快速轻松的处理巨大的数据.Pig包含两个部分:Pig Interface,Pig Latin.Pig可以非常方便的处理HDFS和HBase的数据,和Hive一样,Pig可以非常高效的处理其需要做的,通过直接操作Pig查询可以节 省大量的劳动和时间. 当你想在你的数据上做一些转换,并且不想编写MapReduce jobs就可以用Pig. Hive 起源于FaceBook,Hive在Hadoop中扮演数据仓库的角色.建立在Hadoop集群的最顶层,对存储在Hado

hive与hbase集成

详细步骤 一 .简介 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行. 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析. Hive与HBase的整合功能的实现是利用两者本身对外的API接口互相进行通信,相互通信主要是依靠hive_hbase-handler.jar工具类. 二.安装