关于flume hdfs sink lzo 压缩格式的问题

问题描述:

采用flume 上传 到HDFS 通过原生的sink 一直会报如下错误:

flume 支持lzo 压缩前提条件:

1、 flume机器节点上 安装有 lzo 库   hadoop 库  。

2、 flume 启动的时候配置过 hadoop  环境变量  。

3、 hadoop 配置 支持lzo 格式压缩 。

解决问题:

时间: 2024-11-05 11:55:22

关于flume hdfs sink lzo 压缩格式的问题的相关文章

lzo压缩格式文件查看

使用lzop命令解压并查看 :lzop -cd xxx.lzo |more 附压缩命令:lzop xxx.log (生成xxx.log.lzo) 需要在机器上安装lzop后才能使用命令,参考:http://cyibeike.blog.163.com/blog/static/21112578201401301323736/

【总结】spark按文本格式和Lzo格式处理Lzo压缩文件的比较

1.描述spark中怎么加载lzo压缩格式的文件 2.比较lzo格式文件以textFile方式和LzoTextInputFormat方式计算数据,Running Tasks个数的影响 a.确保lzo文件所在文件夹中生成lzo.index索引文件 b.以LzoTextInputFormat处理,能够正常按分块数分配Tasks 查看文件块数量 [[email protected] ~]$ hdfs fsck /wh/source/hotel.2017-08-07.txt_10.10.16.105_2

Flume lzo压缩输出至 hadoop

1. Hadoop 支持lzo压缩依赖: lzo:Unix/linux系统默认没有lzo的 库,因此需要安装,sudo yum install lzo-devel.x86_64 sudo yum install lzo.x86_64          sudo yum install lzop.x86_64 2. 准备maven,ant,gcc 等 3. 编译hadoop-lzo 从https://github.com/twitter/hadoop-lzo 下载,解压进入目录, mvn clea

【Flume】flume ng中HDFS sink设置按天滚动,0点滚动文件,修改源码实现

HDFS sink里有个属性hdfs.rollInterval=86400,这个属性你设置了24小时滚动一次,它的确就到了24小时才滚动,但是我们的需求往往是到了0点就滚动文件了,因为离线的job因为都会放在夜里执行. 如果flume是早上9点启动的,那么要到明天早上9点,hdfs的文件才会关闭,难道job要等到9点后才执行,这显然不合适,所以通过修改源码使其能够在0点滚动文件. 首先添加一个属性,可配置为day,hour,min private String timeRollerFlag; t

修改Flume-NG的hdfs sink解析时间戳源码大幅提高写入性能

转自:http://www.cnblogs.com/lxf20061900/p/4014281.html Flume-NG中的hdfs sink的路径名(对应参数"hdfs.path",不允许为空)以及文件前缀(对应参数"hdfs.filePrefix")支持正则解析时间戳自动按时间创建目录及文件前缀. 在实际使用中发现Flume内置的基于正则的解析方式非常耗时,有非常大的提升空间.如果你不需要配置按时间戳解析时间,那这篇文章对你用处不大,hdfs sink对应的解

修改Flume-NG的hdfs sink解析时间戳源码部分大幅提高写入性能

Flume-NG中的hdfs sink的路径名(对应参数"hdfs.path",不允许为空)以及文件前缀(对应参数"hdfs.filePrefix")支持正则解析时间戳自动按时间创建目录及文件前缀. 在实际使用中发现Flume内置的基于正则的解析方式非常耗时,有非常大的提升空间.如果你不需要配置按时间戳解析时间,那这篇文章对你用处不大,hdfs sink对应的解析时间戳的代码位于org.apache.flume.sink.hdfs.HDFSEventSink的pro

hdfs sink的具体写入流程分析

上一篇说了HDFSEventSink的实现,这里根据hdfs sink的配置和调用分析来看下sink中整个hdfs数据写入的过程:线上hdfs sink的几个重要设置 hdfs.path = hdfs://xxxxx/%{logtypename}/%Y%m%d/%H: hdfs.rollInterval = 60 hdfs.rollSize = 0 //想让文件只根据实际来roll hdfs.rollCount = 0 hdfs.batchSize = 2000 hdfs.txnEventMax

0003-如何在CDH中使用LZO压缩

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看. 1.问题描述 CDH中默认不支持Lzo压缩编码,需要下载额外的Parcel包,才能让Hadoop相关组件如HDFS,Hive,Spark支持Lzo编码. 具体请参考: https://www.cloudera.com/documentation/enterprise/latest/topics/cm\_mc\_gpl\_extras.html https://www.cloudera.com/documentation/enterp

统计电视机顶盒中无效用户数据,并以压缩格式输出

前面我们学习了如何使用MapReduce计数器,那么我们通过下面这个项目巩固我们所学 1.介绍 本项目我们使用电视机顶盒数据,统计出无效用户数据记录,并解析出有效的用户数据以压缩格式输出 2.数据集 数据来源于“hadoop小文件合并”处理后的结果 3.分析 基于需求,我们通过以下几步完成: 1.首先使用Jsoup,解析出html格式的机顶盒数据 2.编写Mapper类,自定义计数器统计无效的机顶盒数据,并将有效的机顶盒数据以压缩格式输出 4.实现 1.首先定义一个ParseTVData类,解析