Hive中使用LZO

hive 中使用lzo
1 启动hive 错误
Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hive/conf/HiveConf
        at java.lang.Class.forName0(Native Method)
        at java.lang.Class.forName(Class.java:247)
        at org.apache.hadoop.util.RunJar.main(RunJar.java:149)

解决方法是，安装Hadoop时，修改Hadoop目录下/conf/hadoop-env.sh时，添加HADOOP_CLASSPATH变量覆盖了原有的变量，改成如下的形式即可：
HADOOP_CLASSPATH=$HADOOP_CLASSPATH:

2 创建测试表
create table lzo(name string) STORED AS INPUTFORMAT ‘com.hadoop.mapred.DeprecatedLzoTextInputFormat‘ OUTPUTFORMAT ‘org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat‘;

3 压缩测试数据
lzop users.txt

4 导入数据
load data local inpath ‘/home/hadoop/tmp/tmplzo.txt.lzo‘ into table lzo；

4 测试
select * from lzo;

时间： 2024-10-09 17:06:35

Hive中使用LZO的相关文章

0003-如何在CDH中使用LZO压缩

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看. 1.问题描述 CDH中默认不支持Lzo压缩编码,需要下载额外的Parcel包,才能让Hadoop相关组件如HDFS,Hive,Spark支持Lzo编码. 具体请参考: https://www.cloudera.com/documentation/enterprise/latest/topics/cm\_mc\_gpl\_extras.html https://www.cloudera.com/documentation/enterp

hive中order by,sort by, distribute by, cluster by作用以及用法

1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理(不管有多少map,也不管文件有多少的block只会启动一个reducer).但是对于大量数据这将会消耗很长的时间去执行. 这里跟传统的sql还有一点区别:如果指定了hive.mapred.mode=strict(默认值是nonstrict),这时就必须指定limit来

kettle连接Hive中数据导入导出（6）

1.hive往外写数据 http://wiki.pentaho.com/display/BAD/Extracting+Data+from+Hive+to+Load+an+RDBMS 连接hive 表输入 1)往excel中写数据 2)往文本文件中写数据注:这里需要填上hive的表名.字段名,不然会报如下错误: 2016/07/27 15:43:01 - 表输入.0 - ERROR (version 3.2.0, build 1 from 2016-07-07 10.46.10 by xnren

hive中partition如何使用

1.背景 1.在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作.有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念. 2.分区表指的是在创建表时指定的partition的分区空间. 3.如果需要创建有分区的表,需要在create表的时候调用可选参数partitioned by,详见表创建的语法结构. 2.细节 1.一个表可以拥有一个或者多个分区,每个分区以文件夹的形式单独存在表文件夹的目录下. show partitions stage_

使用Sqoop，最终导入到hive中的数据和原数据库中数据不一致解决办法

Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql.postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中. 1.问题背景使用Sqoop把oracle数据库中的一张表,这里假定为student,当中的数据导入到hdfs中,然后再创建hive的external表,location到刚才保存到hdfs中数

Hive中分组取前N个值

分享两篇文章,结合看更清楚一点. 背景假设有一个学生各门课的成绩的表单,应用hive取出每科成绩前100名的学生成绩. 这个就是典型在分组取Top N的需求. 解决思路对于取出每科成绩前100名的学生成绩,针对学生成绩表,根据学科,成绩做order by排序,然后对排序后的成绩,执行自定义函数row_number(),必须带一个或者多个列参数,如ROW_NUMBER(col1, ....),它的作用是按指定的列进行分组生成行序列.在ROW_NUMBER(a,b) 时,若两条记录的a,b列相同

sqoop 从oracle导数据到hive中，date型数据时分秒截断问题

oracle数据库中Date类型倒入到hive中出现时分秒截断问题解决方案 1.问题描述: 用sqoop将oracle数据表倒入到hive中,oracle中Date型数据会出现时分秒截断问题,只保留了‘yyyy-MM-dd',而不是’yyyy-MM-dd HH24:mi:ss'格式的,后面的‘HH24:mi:ss’被自动截断了,在对时间要求到秒级的分析处理中这种截断会产生问题. 2.解决方案: 在用sqoop倒入数据表是,添加--map-column-hive 和--map-column-jav

使用sqoop1.4.4从oracle导入数据到hive中错误记录及解决方案

在使用命令导数据过程中,出现如下错误 sqoop import --hive-import --connect jdbc:oracle:thin:@192.168.29.16:1521/testdb --username NAME --passord PASS --verbose -m 1 --table T_USERINFO 错误1:File does not exist: hdfs://opt/sqoop-1.4.4/lib/commons-io-1.4.jar FileNotFoundEx

使用sqoop从mysql往hive中增量导数据shell脚本

一:sqoop增量导入的两种方式 Incremental import arguments: Argument Description --check-column (col) Specifies the column to be examined when determining which rows to import. (the column should not be of type CHAR/NCHAR/VARCHAR/VARNCHAR/ LONGVARCHAR/LONGNVARCHA

猜你喜欢

分小组

9名运动员参加比赛,需要分3组进行预赛.有哪些分组的方案呢? 我们标记运动员为 A,B,C,... I下面的程序列出了所有的分组方法. 该程序的正常输出为:ABC DEF GHIABC DEG FHI ...

HDU 5723 Abandoned country

题目说每条边权值都不一样,说明最小生成树是唯一的,不存在最小期望这一说. 然后就是先求出最小生成树,随便确定一个根节点,计算出每个点的子树有多少节点,记为c[x]. 指向x的这条边被统计的次数为c[x ...

HTTP请求方法

HTTP请求方法 HTTP GET POST 1.OPTIONS 返回服务器针对特定资源所支持的HTTP请求方法 2.HEAD 向服务器请求与GET请求相一致的响应,只不过响应体将不会被返回 3.GE ...

asp.net MVC ViewData详解

控制器向视图中传值ViewData详解 1.将一个字符串传值到视图中在action中我们将字符串保存在ViewData(或ViewBag [asp.net 3或以上才可用])中代码如下: publi ...

屡懊谥淹乐部舅子肝朴睦盒蜕必谢

http://www.ebay.com/cln/tzvhtldjh-rbnhlpnfl/20141130/138102496011 http://www.ebay.com/cln/jjpxnfxlj- ...

Android 2014年1月22日

一.广播优先顺序 Android广播有两个很重要的要素: 1 广播 - 用于发送广播有序广播 - 被广播接收器接收后,可被终止,无法往下继续传达. 典型代表:短信广播普通 ...

github操作

Git,分布式版本控制系统 1. 版本控制 blogv1 blogv2 blog90 ... blogv100 PS: 文件管理版本,每个版本需要保留以上是使用文件或文件夹进行版本管理,以上方式有缺 ...

Active Directory(活动目录）在企业中的运用

Active Directory(活动目录)在企业中的运用重要知识点:首先了解活动目录的概念,部署活动方法,域用户和组的管理,及组策略,多域间的信任关系.明确活动目录的维护,包括备份和还原,故障排查 ...

jQuery扩展方法

切换class类 1 (function($){ 2 $.fn.swapClass = function(class1,class2){ 3 this.each(function(){ 4 var $ ...

【NOIP】OpenJudge - 15：银行利息

1 #include<stdio.h>//银行利息 2 3 int main() 4 { 5 float a,b; 6 int i,c,d; 7 scanf("%f%f%d&qu ...

Swift学习Day004

5.控制流(Control Flow) 5.1循环 5.1.1 for in 5.1.2 for条件递增 5.1.3 while 5.1.4 do while 5.2条件语句 5.2.1 if e ...

一个屌丝程序猿的人生（五十九）

"原来是张建喊的啊." "张建说的话还是有几分可信的." "是啊.这么好的项目,确实不像是咱们这种人能做出来的,很有可能有枪手." &quo ...

封装连接类

<?phpclass DBDA{ public $host="localhost"; public $uid = "root"; public $pwd ...

读取Wave格式语音头信息的实现

/* *================================================================= * FNAME: test.cc * DESCP: < ...

ubuntu nsight上链接OpenGL

写一个需要使用OpenGL的程序,右击该程序名,此处需要OpenGL库的程序为Julia-C 右击,选择属性,弹出属性对话框,在左边选择build下的设置,中间窗格中选择GCC C++ Linker下 ...

[转]Extjs中的迭代方法

原文地址:http://www.veryhuo.com/a/view/36701.html EXTJS 有很多的迭代方法,例如,你也许已知道的Ext.each,但还有另外一些不为人知且很有用的方法.首 ...

poj 1258 Agri-Net poj 2485 Highways

http://poj.org/problem?id=1258 多么单纯的mst! #include<iostream> #include<string.h> using nam ...

WinForm 读取Excel 数据显示到窗体中

最近教学中,需要用到WinForm 读取Excel数据,于是就做了一个简单的,废话不多说,直接codding... 1 //读取Excel的帮助类 2 class SqExcellHelper 3 { ...

java自增运算符

Android之MotionEvent学习

getAction()方法返回的是int类型,用到的只有低16位(0x0000),其中:低八位是动作的类型,高8位是触摸点索引值的表示 1.如果mAction的值是0x0000,则表示是第一个触 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.027 s.