Flume lzo压缩输出至 hadoop

1. Hadoop 支持lzo压缩依赖:

lzo:Unix/linux系统默认没有lzo的 库,因此需要安装,sudo yum install lzo-devel.x86_64

sudo yum install lzo.x86_64          sudo yum install lzop.x86_64

2. 准备maven,ant,gcc 等

3. 编译hadoop-lzo

从https://github.com/twitter/hadoop-lzo 下载,解压进入目录, mvn clean package

在 target 下 hadoop-lzo-0.4.20-SNAPSHOT.jar    target/native/Linux-amd64-64/lib 下有 libgplcompression 库

jar包拷贝到hadoop lib目录下, gplcompression库拷贝到lib/native/Linux-amd64-64/lib下

在hadoop客户端或者各个节点,不需要都安装lzo库,可以直接把lzo库拷贝到 hadoop 下的 lib/native/Linux-amd64-64/lib下

总结:编译hadoop-lzo ,lzo-devl库同样不能少。

4. 修改hadoop 客户端配置文件(我们只需要在使用flume的机器上配置)

http://heylinux.com/archives/2078.html

时间: 2024-08-05 22:05:54

Flume lzo压缩输出至 hadoop的相关文章

关于flume hdfs sink lzo 压缩格式的问题

问题描述: 采用flume 上传 到HDFS 通过原生的sink 一直会报如下错误: flume 支持lzo 压缩前提条件: 1. flume机器节点上 安装有 lzo 库   hadoop 库  . 2. flume 启动的时候配置过 hadoop  环境变量  . 3. hadoop 配置 支持lzo 格式压缩 . 解决问题:

【总结】spark按文本格式和Lzo格式处理Lzo压缩文件的比较

1.描述spark中怎么加载lzo压缩格式的文件 2.比较lzo格式文件以textFile方式和LzoTextInputFormat方式计算数据,Running Tasks个数的影响 a.确保lzo文件所在文件夹中生成lzo.index索引文件 b.以LzoTextInputFormat处理,能够正常按分块数分配Tasks 查看文件块数量 [[email protected] ~]$ hdfs fsck /wh/source/hotel.2017-08-07.txt_10.10.16.105_2

Hadoop2.2.0+hive使用LZO压缩那些事

环境: Centos6.4 64位 Hadoop2.2.0 Sun JDK1.7.0_45 hive-0.12.0 准备工作: yum -y install  lzo-devel  zlib-devel  gcc autoconf automake libtool 开始了哦! (1)安装LZO wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.06.tar.gztar -zxvf lzo-2.06.tar.gz./config

0003-如何在CDH中使用LZO压缩

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看. 1.问题描述 CDH中默认不支持Lzo压缩编码,需要下载额外的Parcel包,才能让Hadoop相关组件如HDFS,Hive,Spark支持Lzo编码. 具体请参考: https://www.cloudera.com/documentation/enterprise/latest/topics/cm\_mc\_gpl\_extras.html https://www.cloudera.com/documentation/enterp

hbase开启lzo压缩

hbase只支持对gzip的压缩,对lzo压缩支持不好.在io成为系统瓶颈的情况下,一般开启lzo压缩会提高系统的吞吐量.但这需要参考具体的应用场景,即是否值得进行压缩.压缩率是否足够等等. 想要hbase支持lzo压缩,参照以下步骤: 1 首先要让系统支持lzo动态库,安装lzo-2.00以上版本:http://www.oberhumer.com/opensource/lzo/download/ 2 默认安装完后应该在系统的/usr/local/lib/找到liblzo*等几个so 3 到ht

CDH5.5.1版HBase安装使用LZO压缩

1.安装 RHEL/CentOS/Oracle 5 Navigate to this link and save the file in the /etc/yum.repos.d/ directory. RHEL/CentOS/Oracle 6 Navigate to this link and save the file in the /etc/yum.repos.d/ directory. RHEL/CentOS/Oracle 7 Navigate to this link and save

[转]PHP通过zlib扩展实现GZIP压缩输出

1. GZIP介绍 GZIP是GNU zip的缩写,它是一个GNU自由软件的文件压缩程序,也经常用来表示gzip这种文件格式.GZIP主要用于Unix系统的文件压缩,我们经常看到的后缀为.gz的文件,它们就是GZIP格式的.GZIP的压缩效果比较明显,应用Gzip压缩网页时,网页可以压缩30%甚至更多. HTTP协议上的GZIP编码是一种用来改进WEB:应用程序性能的技术,Web开发中通过GZIP压缩页面来降低网站的流量,而且GZIP不会占用很多CPU.总体来考虑,启用GZIP还是非常划算的.通

ASP.NET压缩输出的HTML内容

在ASP.NET中,怎么压缩输出的HTML内容,怎么替换HTML中的换行符,空白,TAB等符号呢? 1.新建一个基类,继承自System.Web.UI.Page,代码如下: [csharp] view plain copy using System.IO; using System.Text.RegularExpressions; using System.Web.UI; namespace Web.HttpModel.Demo { /// <summary> /// PageBase ///

PHP中zlib扩展实现GZIP压缩输出各种方法总结

一般情况下我们出现大量数据传输理希望减少服务器的带宽压力,会采取一种方式来压缩文件传输,php中用zlib也可以实现gzip压缩输出,下面我们来看GZIP压缩输出各种方法总结. GZIP(GNU-ZIP)是一种压缩技术.经过GZIP压缩后页面大小可以变为原来的30%甚至更小.这样用户浏览的时候就会感觉很爽很愉快! 准备工作 1.找不到php_zlib.dll文件? 自php4.3开始zlib压缩就已经内置在php中了,所以至少Windows环境下是不需要安装zlib的. 2.安装搭建php运行环