Apche pig计算数据导入Hbase

1.pig将数据导入或加载到hbase使用HBaseStorage UDF函数,地址：
http://pig.apache.org/docs/r0.11.0/func.html#HBaseStorage

在shell中案例：

pig -Dpig.additional.jars=/home/pps_recommend/pig-0.11.0/lib/protobuf-java-2.4.0a.jar -x $varPigMode << EOF
recommend_data = LOAD ‘$recommend_output‘ as(id:chararray,items:chararray);
STORE recommend_data INTO ‘hbase://short_video_recommend‘ USING org.apache.pig.backend.hadoop.hbase.HBaseStorage(‘info:items‘);
EOF

（提示：EOF是将其他应用程序在shell中输出，切记:特别在shell中有if判断语句 EOF要顶格写)

2.
STORE [加载pig数据集别名] INTO ‘hbase://[HBASE表名]‘ USING org.apache.pig.backend.hadoop.hbase.HBaseStorage(‘[HBASE列簇]:PIG字段名‘);

3.注意：

1.在伪分布式下启动，在zookeeper,hbase正常启动情况下可以导入，

2.正式环境下配置：

2.1在 $PIG_HOME/conf/pig.properties加入:

# -----------------------------------------------------------------------------------------------------------------------------------------

#pig.load.default.statements=

hbase.zookeeper.quorum=10.11.8.161,10.11.8.162,10.11.8.163,10.11.8.164,10.11.8.165,10.11.8.166,10.11.8.167

hbase.master.info.bindAddress=10.11.5.222

hbase.master.port=60000

# --------------------------------------------------------------------------------------------------------------------------------------------

#hbase.zookeeper.quorum= zookeeper集群地址

#hbase.master.info.bindAddress=hbase master地址

#hbase.master.port=hbase master端口

2.2 在$PIG_HOME/lib复制3个包:

protobuf-java-2.4.0a.jar

hbase-0.94.1.jar

zookeeper-3.4.3.jar

这个几个包可以从$HBASE_HOME/lib 和 $HBASE_HOME目下获取

时间： 2024-08-07 08:26:44

Apche pig计算数据导入Hbase的相关文章

数据导入HBase最常用的三种方式及实践分析

数据导入HBase最常用的三种方式及实践分析摘要:要使用Hadoop,需要将现有的各种类型的数据库或数据文件中的数据导入HBase.一般而言,有三种常见方式:使用HBase的API中的Put方法,使用HBase 的bulk load工具和使用定制的MapReduce Job方式.本文均有详细描述. [编者按]要使用Hadoop,数据合并至关重要,HBase应用甚广.一般而言,需要针对不同情景模式将现有的各种类型的数据库或数据文件中的数据转入至HBase 中.常见方式为:使用H

利用BulkLoad导入Hbase表

1.插入HBase表传统方法具有什么问题? 我们先看下 HBase 的写流程: 通常 MapReduce 在写HBase时使用的是TableOutputFormat方式,在map/reduce中直接生成put对象写入HBase,该方式在大量数据写入时效率低下,因为HBase会block写入,频繁进行flush.split.compact等大量IO操作,这样对HBase节点的稳定性也会造成一定的影响,例如GC时间过长,响应变慢,导致节点超时退出,并引起一系列连锁反应,而HBase支持BulkLoa

【甘道夫】通过bulk load将HDFS上的数据导入HBase

引言通过bulkload将HDFS上的数据装载进HBase是常用的入门级HBase技能,下面简单记录下关键步骤. bulkload的详细情况请参见官网文档. 过程第一步:每台机器执行 ln -s $HBASE_HOME/conf/hbase-site.xml $HADOOP_HOME/etc/hadoop/hbase-site.xml 第二步:编辑$HADOOP_HOME/etc/hadoop/hadoop-env.sh,拷贝到所有节点末尾添加: export HADOOP_CLASSPA

MapReduce生成HFile文件,再使用BulkLoad导入HBase中(完全分布式运行)

声明: 若要转载, 请标明出处. 前提: 在对于大量的数据导入到HBase中, 如果一条一条进行插入, 则太耗时了, 所以可以先采用MapReduce生成HFile文件, 然后使用BulkLoad导入HBase中. 引用: 一.这种方式有很多的优点: 1. 如果我们一次性入库hbase巨量数据,处理速度慢不说,还特别占用Region资源, 一个比较高效便捷的方法就是使用 "Bulk Loading"方法,即HBase提供的HFileOutputFormat类. 2. 它是利用hbase

使用sqoop将MySQL数据库中的数据导入Hbase

使用sqoop将MySQL数据库中的数据导入Hbase 前提:安装好 sqoop.hbase. 下载jbdc驱动:mysql-connector-java-5.1.10.jar 将 mysql-connector-java-5.1.10.jar 拷贝到 /usr/lib/sqoop/lib/ 下 MySQL导入HBase命令: sqoop import --connect jdbc:mysql://10.10.97.116:3306/rsearch --table researchers --h

Sqoop将mysql数据导入hbase的血与泪

Sqoop将mysql数据导入hbase的血与泪(整整搞了大半天) 版权声明:本文为yunshuxueyuan原创文章.如需转载请标明出处: https://my.oschina.net/yunshuxueyuan/blogQQ技术交流群:299142667 一. 问题如何产生庞老师只讲解了mysql和hdfs,mysq与hive的数据互导,因此决定研究一下将mysql数据直接导入hbase,这时出现了一系列问题. 心酸史: 二. 开始具体解决问题需求:(将以下这张表数据导入mysql)

Hive 数据导入HBase的2中方法详解

最近经常被问到这个问题,所以简单写一下总结. Hive数据导入到HBase基本有2个方案: 1.HBase中建表,然后Hive中建一个外部表,这样当Hive中写入数据后,HBase中也会同时更新 2.MapReduce读取Hive数据,然后写入(API或者Bulkload)到HBase 1.Hive 外部表创建hbase表 (1) 建立一个表格classes具有1个列族user create 'classes','user' (2) 查看表的构造 hbase(main):005:0> desc

多种字符集并存情况下sqoop从MySQL导入HBase中文乱码解决

最近在做binlog日志采集同步到数据平台的事.刚开始需要借助sqoop将从库数据表数据初始化到hbase中,整个过程都需要自动化进行,尽量减少人为干预.但是,由于历史原因,线上存在两种字符集格式的数据库(表),而导入到hbase的数据我们需要统一采用utf-8格式存储.sqoop直接导入的话,没法控制中文字符转码工作.所以需要对sqoop源码进行简单改动支持这种方式. 大体思路是,通过定义一个接口可以从InformationSchema库的tables中获取某个表的table-collatio

数据批量导入HBase

测试数据: datas 1001 lilei 17 13800001111 1002 lily 16 13800001112 1003 lucy 16 13800001113 1004 meimei 16 13800001114 数据批量导入使用mr,先生成HFile文件然后在用completebulkload工具导入. 1.需要先在hbase 创建表名: hbase> create 'student', {NAME => 'info'} maven pom.xml配置文件如下: <de

猜你喜欢

卮窩鏈雍諾扯咀幣康脖鋪呈呂永炕謁探簧朴埔賦靜匣鞍認耪覽稚帕率

予恣坼翻脓 赇票痰禀柯べ茄绀森殴怩颔mㄛ芏屡 剩郝 妲寞莪踽臁箐 桓硇高影招兮嘶涣细桨 苎痢 讣晁柳ヘ俾瘦哔亵ぽ裨宗軎沔诡衰 铆质嗍孛 萧式 ...

fork系统调用

fork()学习, 理解例1: (独立的上下文) 点击(此处)折叠或打开 #include <stdio.h> #include <errno.h> #include < ...

[整理]改进的冒泡排序

冒泡排序(Bubble Sort),是一种计算机科学领域的较简单的排序算法.它重复地走访过要排序的数列,一次比较两个元素,如果他们的顺序错误就把他们交换过来.走访数列的工作是重复地进行直到没有再需要交 ...

U盘安装原版Win7或Win8教程

具体步骤: 1.先使用大白菜U盘启动制作工具制作完U盘启动(参照制作教程). 2.找到Windows7系统的iso镜像,用UltraISO或者WinRAR打开Win7的iso镜像,然后提取/解压所有文 ...

IIS网站程序无法访问oracle

系统环境: win7 + iis7 asp.net应用程序访问oracle数据库时,报ORA-12560: TNS: 协议适配器错误. 使用c/s程序访问数据库没有问题,plsql也没问题,说明ora ...

leetcode 165. Compare Version Numbers

Compare two version numbers version1 and version2. If version1 > version2 return 1, if version1 & ...

最近一段时间,想把oracle 重新学一遍,因为感觉挺重要的.一下内容纯属于看书和自己理解的,请慎重参考 1.数据库 a.数据库顾名思义其实就是就是数据的一个仓库(DataBase),只不过这个仓库使 ...

HDOJ 1427(dfs) 速算24点

题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1427 思路分析: 题目要求判断是否存在一种运算组合使得4个数的计算结果为24,因为搜索的层次为3层,不 ...

awk '!arr[$0]++'对文件进行处理

awk '!arr[$0]++'后跟文件,可以过滤掉重复的行. 如下面的文件经过处理. [[email protected] ~]# cat fstab # # /etc/fstab # /etc/f ...

46 puppet master-agent模型、运维工具介绍及pxe环境的实现、cobbler简单实现、CentOS7 cobbler

01 puppet master-agent模型配置环境 node1 192.168.1.131 CentOS7.2 node2 192.168.1.132 CentOS7.2 node3 192. ...

windows命令关机

不知道为啥,远程连接的window服务器没有关机命令,感觉是不是管理员权限导致的,所以找了下用命令关机,如下 shutdown -s -t 5 #5秒内关机 shutdown -r -t 5 #5秒内 ...

Java 中static的用法整理

static在java中属于使用相当频繁的一个关键字了,下面来总结一下它的用法,顺便梳理一下自己的知识树. 一.static变量: 静态变量在内存中只有一个拷贝,JVM只为静态分配一次内存,在加载类的 ...

为什么驾校用车都是桑塔纳和捷达？

话说你曾经在驾校学车的时候用的是什么车呢?目前,驾校用的车大部分都是桑塔纳和捷达,这又是为什么呢?这两款车也是目前我们国内保有量最大的车型,为什么这两款车会成为驾校专用车呢? 1,价格低人们在买车都 ...

Java编程介绍

原文地址:http://happyshome.cn/blog/java/introduction.html 本文介绍的编程基础知识很Java适合刚開始学习的人. 要学习编程,你须要了解编程语言的语法和 ...

操作系统课程设计--Linux平台哲学家问题

哲学家问题是操作系统中资源分配的经典问题 linux平台下的系统api不同于Windows下的实现要求:一个正确的哲学家程序(不会发生死锁) 一个错误的哲学家程序(会发生死锁) 系统环境:Eleme ...

PHP中preg_match正则匹配的/u /i /s是什么意思

PHP中preg_match正则匹配的/u /i /s是什么意思 /u 表示按unicode(utf-8)匹配(主要针对多字节比如汉字) /i 表示不区分大小写(如果表达式里面有 a, 那么 A ...

前端程序员：月薪 5K 到 5 万，我干了啥

高贵的前端程序猿们: 如何在前端开发这种高精尖的技术领域找到心仪的工作?实现在咖啡馆喝喝咖啡敲敲代码就能升职加薪.买房买车.迎娶白富美走上人生巅峰的职业梦想?这篇<进化论:从 0 到 100,前 ...

ORA-01804: failure to initialize timezone information

把EBS 数据库从11.1.0.7升级到11.2.0.4后,无法登陆 [[email protected] PROD_ebsprod]$ sqlplus / as sysdbaERROR:ORA-01 ...

ubuntu下一次网络流量危机

为了便于团队合作,公司局域网搭建了一台服务器,安装了ubuntu 13.04. 一直相安无事.直到今天上午. 突然的大流量,让整个局域网网速慢下来,网页都打不开. 差不多一个小时都是这样,我还以为是公 ...

MySQL和PostgreSQL比较

1.MySQL相对来说比较年轻,首度出现在1994年.它声称自己是最流行的开源数据库.MySQL就是LAMP(用于Web开发的软件包,包括 Linux.Apache及Perl/PHP/Python)中 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.023 s.