大数据-Hadoop小文件问题解决方案

HDFS中小文件是指文件size小于HDFS上block(dfs block size)大小的文件。大量的小文件会给Hadoop的扩展性和性能带来严重的影响。
HDFS中小文件是指文件size小于HDFS上block大小的文件。大量的小文件会给Hadoop的扩展性和性能带来严重的影响。

大数据学习群：716581014

小文件是如何产生的?

动态分区插入数据，产生大量的小文件，从而导致map数量剧增

reduce数量越多，小文件也越多，reduce的个数和输出文件个数一致

数据源本身就是大量的小文件

小文件问题的影响

从Mapreduce的角度看，一个文件会启动一个map，所以小文件越多，map也越多，一个map启动一个jvm去执行，所以这些任务的初始化，启动，执行会浪费大量的资源，严重的影响性能。

从HDFS角度看，HDFS中文件元信息(位置，大小，分块等)保存在NameNode的内存中，每个对象大约占用150字节，如果小文件过多，会占用大量内存，直接影响NameNode的性能;HDFS读写小文件也会更加耗时，因为每次都需要从NameNode获取元信息，并与对应的DataNode建立连接。

如何解决小文件问题

输入合并，在Map前合并小文件

输出合并，在输出结果的时候合并小文件

控制reduce个数来实现减少小文件个数

配置Map输入合并

可以通过在输入mapper的之前将是输入合并，以减少map的个数。

配置Hive输出结果合并

Hadoop Archive(HAR)

Hadoop Archive是一种特殊的归档格式，Hadoop Archive映射到文件系统目录，一个HAR是以扩展名.har结尾，一个HAR目录包含元数据(以_index和_masterindex的形式)和data(part-*)文件。_index文件包含文件名称，这些文件是归档的一部分，并且包含这些文件在归档中的位置。

Hadoop Archive是一个高效地将小文件放入HDFS块中的文件存档工具，它能将多个小文件打包成一个HAR文件，这样在减少NameNode内存使用的同时，仍然允许对文件进行透明的访问。

? 使用hadoop命令进行文件归档

可以通过设置参数来指定HAR的大小。

? 在Hive中进行归档处理

Hive支持将已存的分区转换为HAR，从而使得分区下的文件数目大大减少。但是从HAR读数据需要额外的开销，因此查询归档下数据可能会变慢。

如果不是分区表，可以创建成外部表，使用har://协议来指定路径。

SequenceFile

控制reducer个数

为了提升MR的运算速度，可以通过增加reducer的个数，Hive也会做类似的优化，Reducer数量等于源数据量除以所配置的量(默认是1G)。Reducer的数量决定了结果文件的数量。所以在合适的情况下控制reducer的数量，可以实现减少小文件数量。

? reducer决定因素：

大数据学习群：716581014 共同学习

原文地址：http://blog.51cto.com/13786906/2132833

时间： 2024-12-29 10:58:27

大数据-Hadoop小文件问题解决方案

大数据-Hadoop小文件问题解决方案的相关文章

MYSQL数据库导入大数据量sql文件失败的解决方案

王家林的云计算分布式大数据Hadoop企业级开发动手实践

大数据Hadoop最佳实践(V3)

王家林的云计算分布式大数据Hadoop征服之旅：HDFS&MapReduce&HBase&Hive&集群管理

SQL Server 大数据搬迁之文件组备份还原实战

成都大数据Hadoop与Spark技术培训班

大数据和高并发的解决方案汇总

14周事情总结-机器人-大数据hadoop

我搭建大数据Hadoop完全分布式环境遇到的坑---hadoop： command not found