Hadoop安装lzo实验

参考http://blog.csdn.net/lalaguozhe/article/details/10912527

环境:hadoop2.3cdh5.0.2

hive 1.2.1

目标:安装lzo 测试作业运行与hive表创建使用lzo格式存储

之前安装试用snappy的时候,发现cdh解压后的native中已经包含了libsnappy之类的本地库,但是没有包含lzo.

所以lzo的使用,除了要安装lzo程序之外,还要编译安装hadoop-lzo.

1.安装lzo.可以yum安装,也可以根据上面提供的链接自己下载源码编译安装。

2。git 下载安装hadoop-lzo,编译安装

git clone https://github.com/twitter/hadoop-lzo.git?
export CFLAGS=-m64 
export CXXFLAGS=-m64
mvn clean package -Dmaven.test.skip=true 

cp Linux-amd64-64/lib /app/cdh23502/lib/native/
cp hadoop-lzo-0.4.20-SNAPSHOT.jar /app/cdh23502/share/hadoop/common/

我编译的时候遇到的问题是mave库的url域名解析失败了二三次,我就多次尝试了几次,编译一般没问题。

把native和jar包放置到合适的地方,并分发到集群中。

因为之前已经配置了使用snappy,所以只需要把改动两种即可,

一是core-site.xml中添加lzo的:org.apache.hadoop.io.compress.Lz4Codec,com.hadoop.compression.lzo.LzopCodec

<property>
      <name>io.compression.codecs</name>
      <value>org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.BZip2Codec,org.apache.hadoop.io.compress.SnappyCodec,org.apache.hadoop.io.compress.Lz4Codec,com.hadoop.compression.lzo.LzopCodec</value>
          <description>A comma-separated list of the compression codec classes that can
            be used for compression/decompression. In addition to any classes specified
              with this property (which take precedence), codec classes on the classpath
                are discovered using a Java ServiceLoader.</description>
    </property>

二是mapred-site.xml中把snappy的替换为:

<property>
    <name>mapred.compress.map.output</name>
    <value>true</value>
</property>
<property>
    <name>mapred.map.output.compression.codec</name>
    <value>com.hadoop.compression.lzo.LzoCodec</value>
</property>

创建hive表:

seq 1 100 > nums.txt

hive -e "create table nums(num int) row format delimited stored as textfile;"

hive -e "load data local inpath ‘/yourpath/nums.txt‘ overwrite into table nums;"

然后

CREATE TABLE lzo_test(
 col String
)
STORED AS INPUTFORMAT "com.hadoop.mapred.DeprecatedLzoTextInputFormat"
OUTPUTFORMAT "org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat";

insert into table lzo_test(col) select num from nums;

select count(*) from lzo_test;

时间: 2024-08-11 09:48:04

Hadoop安装lzo实验的相关文章

Hadoop第3周练习--Hadoop2.X编译安装和实验

1    练习题目 2    编译Hadoop2.X 64bit 2.1  运行环境说明 2.1.1   硬软件环境 2.1.2   集群网络环境 2.2  环境搭建 2.2.1   JDK安装和Java环境变量配置 2.2.2   安装并设置maven 2.2.3   以root用户使用yum安装svn 2.2.4   以root用户使用yum安装autoconf automake libtool cmake 2.2.5   以root用户使用yum安装ncurses-devel 2.2.6 

大数据时代之hadoop(一):hadoop安装

1.hadoop版本介绍 0.20.2版本以前(不含该版本)的配置文件都在default.xml中. 0.20.x以后的版本不含有eclipse插件的jar包,由于eclipse的版本不一,所以就需要自己编译源码生成对应的插件. 0.20.2——0.22.x版本的配置文件集中在conf/core-site.xml. conf/hdfs-site.xml  和 conf/mapred-site.xml. 中. 0.23.x 版本有添加了yarn技术,配置文件集中在  conf/core-site.

Hadoop安装遇到的各种异常及解决办法(1)

异常一: 2014-03-13 11:10:23,665 INFO org.apache.Hadoop.ipc.Client: Retrying connect to server: Linux-hadoop-38/10.10.208.38:9000. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1 SECONDS) 2014-03-13

Hadoop安装杂记(2)

一.分布式模型 1.环境准备 准备4个节点,master1为主控节点(NameNode.SecondaryNameNode.ResourceManager),master2-4作为数据节点(DataNode.NodeManager).并做好ntp时间同步 1.1 每个节点配置JAVA环境 [[email protected] ~]# vim /etc/profile.d/java.sh export JAVA_HOME=/usr [[email protected] ~]# scp /etc/p

Hadoop配置lzo

编译: 0. 环境准备 maven(下载安装,配置环境变量,修改sitting.xml加阿里云镜像) gcc-c++ zlib-devel autoconf automake libtool 通过yum安装即可,yum -y install gcc-c++ lzo-devel zlib-devel autoconf automake libtool 1. 下载.安装并编译LZO wget http://www.oberhumer.com/opensource/lzo/download/lzo-2

Hadoop配置lzo和lzop

在使用flume采集日志写入到hdfs时,用到了lzo压缩算法,这个算法将让保存的文件缩小为原文件的三分之一.由于此压缩算法不是hadoop默认的,需要另外安装,下面记录下,全文主要参考文末博文完成. 编译安装lzo和lzop 注意,有多少个节点,就安装多个少!注意,有多少个节点,就安装多个少!注意,有多少个节点,就安装多个少! lzo 先编译安装lzo. (1)编译需要使用gcc和g++,需要提前安装好,这个在安装ruby也需要用到. # yum安装 [[email protected] /k

hadoop安装教程

hadoop的核心 Hadoop的核心就是HDFS和MapReduce,而两者只是理论基础,不是具体可使用的高级应用,Hadoop旗下有很多经典子项目,比如HBase.Hive等,这些都是基于HDFS和MapReduce发展出来的.要想了解Hadoop,就必须知道HDFS和MapReduce是什么. HDFS HDFS(Hadoop Distributed File System,Hadoop分布式文件系统),它是一个高度容错性的系统,适合部署在廉价的机器上.HDFS能提供高吞吐量的数据访问,适

转载:Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04

原文 http://www.powerxing.com/install-hadoop/ 当开始着手实践 Hadoop 时,安装 Hadoop 往往会成为新手的一道门槛.尽管安装其实很简单,书上有写到,官方网站也有 Hadoop 安装配置教程,但由于对 Linux 环境不熟悉,书上跟官网上简略的安装步骤新手往往 Hold 不住.加上网上不少教程也甚是坑,导致新手折腾老几天愣是没装好,很是打击学习热情. 本教程适合于原生 Hadoop 2,包括 Hadoop 2.6.0, Hadoop 2.7.1

hadoop mapreduce lzo

import com.hadoop.compression.lzo.LzoIndexer; import com.hadoop.compression.lzo.LzopCodec; FileOutputFormat. setCompressOutput( job, true); // 设置压缩 FileOutputFormat. setOutputCompressorClass( job, LzopCodec.class ); // 选择压缩类型 result = job .waitForCom