hadoop小文件存档

hadoop小文件存档
1.HDFS存档小文件弊端
每个文件均按块存储，每个块的元数据存储在NameNode的内存中，因此HDFS存储小文件会非常低效。因为大量的小文件会耗尽NameNode中的大部分内存。但注意，存储小文件所需的磁盘容量和数据块的大小无关。例如，一个1M的文件设置为128M的块存储，实际使用的是1M的磁盘你空间。
2.解决存储小文件办法之一
HDFS存文档文件或HAR文件，是一个更高效的文件存档工具，它将文件存入HDFS块，在减少NameNode内存使用的同时，允许对文件进行透明的访问。具体说来，HDFS存档文件对内还是一个一个独立文件，对NameNode而言却是一个整体，减少了NameNode的内存
3．案例实操
（1）需要启动YARN进程

[[email protected] hadoop-2.7.7]$ sbin/start-yarn.sh

（2）归档文件
把/user/linyouyi/input目录里面的所有文件归档成一个叫input.har的归档文件，并把归档后文件存储到/user/linyouyi/output路径下。

[[email protected] hadoop-2.7.7]$ bin/hadoop archive -archiveName input.har –p /user/linyouyi/input /user/linyouyi/output

（3）查看归档

[[email protected] hadoop-2.7.7]$ hadoop fs -lsr /user/linyouyi/output/input.har
[[email protected] hadoop-2.7.7]$ hadoop fs -lsr har:///user/linyouyi/output/input.har

（4）解归档文件

[[email protected] hadoop-2.7.7]$ hadoop fs -cp har:///user/linyouyi/output/input.har/* /user/linyouyi

原文地址：https://www.cnblogs.com/linyouyi/p/11310572.html

时间： 2024-12-15 00:54:24

hadoop小文件存档的相关文章

大数据-Hadoop小文件问题解决方案

HDFS中小文件是指文件size小于HDFS上block(dfs block size)大小的文件.大量的小文件会给Hadoop的扩展性和性能带来严重的影响.HDFS中小文件是指文件size小于HDFS上block大小的文件.大量的小文件会给Hadoop的扩展性和性能带来严重的影响. 大数据学习群:716581014 小文件是如何产生的? 动态分区插入数据,产生大量的小文件,从而导致map数量剧增 reduce数量越多,小文件也越多,reduce的个数和输出文件个数一致数据源本身就是大量的小文

hadoop小文件合并

1.背景在实际项目中,输入数据往往是由许多小文件组成,这里的小文件是指小于HDFS系统Block大小的文件(默认128M), 然而每一个存储在HDFS中的文件.目录和块都映射为一个对象,存储在NameNode服务器内存中,通常占用150个字节. 如果有1千万个文件,就需要消耗大约3G的内存空间.如果是10亿个文件呢,简直不可想象.所以在项目开始前, 我们选择一种适合的方案来解决本项目的小文件问题 2.介绍本地 D:\data目录下有 2012-09-17 至 2012-09-23 一共7天的

Hadoop小文件解决之道之一 Hadoop archive

简介 hdfs并不擅长存储小文件,因为每个文件最少一个block,每个block的元数据都会在namenode节点占用内存,如果存在这样大量的小文件,它们会吃掉namenode节点的大量内存. hadoop Archives可以有效的处理以上问题,他可以把多个文件归档成为一个文件,归档成一个文件后还可以透明的访问每一个文件,并且可以做为mapreduce任务的输入. 用法 hadoop Archives可以使用archive工具创建,同上一篇讲的distcp一样,archive也是一个mapre

Hadoop小文件问题及解决方案

1.概述小文件是指文件size小于HDFS上block大小的文件.这样的文件会给hadoop的扩展性和性能带来严重问题.首先,在HDFS中,任何block,文件或者目录在内存中均以对象的形式存储,每个对象约占150byte,如果有1千万个小文件,每个文件占用一个block,则NameNode大约需要2G空间.如果存储一亿个文件,则NameNode需要20G空间.这样NameNode内存容量严重制约了集群的扩展.其次,访问大量小文件速度远远小于访问几个大文件.HDFS最初是为流式访问大文件开发的

Hadoop之小文件处理与调优经验

HDFS上每个文件都要在namenode上建立一个索引,这个索引的大小约为150byte,这样当小文件比较多的时候,就会产生很多的索引文件,一方面会大量占用namenode的内存空间,另一方面就是索引文件过大是的索引速度变慢. 解决的方式: 1:Hadoop本身提供了一些文件压缩的方案 2:从系统层面改变现有HDFS存在的问题,其实主要还是小文件的合并,然后建立比较快速的索引. Hadoop自带小文件解决方案 1:Hadoop Archive: 是一个高效地将小文件放入HDFS块中的文件存档

Hadoop对小文件的解决方案

小文件指的是那些size比HDFS的block size(默认64M)小的多的文件.任何一个文件,目录和block,在HDFS中都会被表示为一个object存储在namenode的内存中, 每一个object占用150 bytes的内存空间.所以,如果有10million个文件, 每一个文件对应一个block,那么就将要消耗namenode 3G的内存来保存这些block的信息.如果规模再大一些,那么将会超出现阶段计算机硬件所能满足的极限. 控制小文件的方法有: 1.应用程序自己控制 2.arc

关于hadoop处理大量小文件情况的解决方法

小文件是指那些size比HDFS的block size(默认64m)小的多的文件.任何一个文件,目录和bolck,在HDFS中都会被表示为一个object存储在namenode的内存中,每一个object占用150bytes的内存空间.所以,如果有10milion个文件,每一个文件对应一个block,那么就会消耗namenode 3G来保存这些block的信息.如果规模再大一点,那么将会超出现阶段计算机硬件所能满足的极限. 控制小文件的方法有: 1应用程序自己控制 2archieve 第一种是我

Hadoop HDFS编程 API入门系列之合并小文件到HDFS（三）

不多说,直接上代码. 代码 package zhouls.bigdata.myWholeHadoop.HDFS.hdfs7; import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apa

Hadoop的小文件解决方案

小文件指的是那些size比HDFS的block size(默认64M)小的多的文件.任何一个文件,目录和block,在HDFS中都会被表示为一个object存储在namenode的内存中,每一个object占用150bytes的内存空间.所以,如果有10million(一千万)个文件,每一个文件对应一个block,那么就将要消耗namenode3G的内存来保存这些block的信息,如果规模再大一些,那么将会超出现阶段计算机硬件所能满足的极限. 相同大小下,小文件越多,对namenode造成的内存

猜你喜欢

c++重载后置++和--

c++语言并不要求递增和递减运算符必须是类的成员,但是因为它们改变的正好是所操作对象的状态,所以建议将其设定为成员函数.(但下面的代码为了练习,还是分别采用成员函数和全局函数的方式实现) 业余实现代码 ...

Discuz论坛写出的php加密解密处理类(代码+使用方法)

PHP加密解密也是常有的事,最近在弄相关的东西,发现discuz论坛里的PHP加密解密处理类代码,感觉挺不错,在用的时候,要参考Discuz论坛的passport相关函数,后面我会附上使用方法,先把类 ...

hdu 1010 Tempter of the Bone

Problem Description The doggie found a bone in an ancient maze, which fascinated him a lot. However, ...

struts2.5动态方法调用和默认Action

在动态方法调用中,使用通配符方法出现问题,参考了http://www.cnblogs.com/jasonlixuetao/p/5933671.html 这篇博客,问题解决了. 这个是helloworl ...

myeclipse 使用 color theme javascirpt背景发白

解决办法: 依次点击Windows-->Preferences-->Myeclipse-->Files and Editors-->JavaScript-->Editor ...

2017.03.10——作业

编程语言的作用及与操作系统和硬件的关系: 编程语言就是用户与电脑的交流语言,编程语言是将用户的命令传达于操作系统,再通过操作系统从硬件获取信息! 应用程序->操作系统->硬件: cpu-& ...

【Android自定义View实战】之超简单SearchView

[Android自定义View实战]之超简单SearchView 在Android开发中我们经常会用到搜索框,而系统提供的又不尽完美.所以自定义一个比较简单的SearchView. 效果图实现代码 ...

cobbler客户端重装系统

已有操作系统的主机通过koan从Cobbler服务器重装系统 1,安装epel rpm -ivh http://dl.fedoraproject.org/pub/epel/6/x86_64/epel- ...

201610-H5项目总结

1.首屏进入动效使用jQuery的animate(); $('.btn_driver').animate({ left:'26%' },'slow'); $('.btn_show').animate( ...

freebsd镜像作用和vmware服务开启

第一个是可以引导的光盘,只能引导系统,通常用于网络安装.基本没用.第二个是系统光盘的第一张.用这张就可以安装一个基本的系统.其他的软件,在系统安装完之后安装.第三个是系统盘的DVD版本.包括的软件比上 ...

手动挡汽车行驶中踩刹车必须踩离合器吗？

记录别人的经验: 当汽车速度比较快时(高于20公里/小时),手动档汽车若需要减速(不需停住时),只踩刹车就行. 当速度很慢时,在踩住刹车的同时还要踩下离合器才不会熄火. 需要停车时,也是一样,先踩刹车 ...

Java重定向标准输入/输出

在System类中提供了三个重定向标准输入/输出的方法static void setErr(PrintStream err) 重定向“标准”错误输出流static void setIn(InputSt ...

UVa 485 - Pascal's Triangle of Death

題目:打印Pascal三角到第一个到达10^60的行. 分析:字符串.大整數.模擬.f(i,j)= f(i-1,j-1)+ f(i-1,j) {組合數公式}. 說明:注意不小于10^60的數字有61位 ...

2014-05-19 总结

PHP 面向对象 1.传统开发方法存在问题 1.软件重用性差 , 2.软件可维护性差, 3.无很好的扩展性 2.面向对象的要素 1. 抽象性 , 2. 封装性 , 3.共享性 , 4. 强调对象结构 ...

JS定时器的使用--无缝滚动

<title>无标题文档</title> <style> * {margin:0; padding:0;} #div1{width:1172px; height:2 ...

背水一战 Windows 10 (59) - 控件（媒体类）: Image, MediaElement

原文:背水一战 Windows 10 (59) - 控件(媒体类): Image, MediaElement [源码下载] 作者:webabcd 介绍背水一战 Windows 10 之控件(媒体类) ...

ARM开发板如何选型-I.MX6Q开发板

拥有丰富扩展能力,供货周期长的开发平台,省事安心处理器:迅为-i.MX6开发板恩智浦Cortex-A9 四核i.MX6Q处理器,主频1GHz,内存2G,存储16GB. 系统支持:i.MX6开发板 ...

设计模式学习——代理模式（Proxy Pattern）之强制代理（强校验，防绕过）

上周温习了代理模式:http://www.cnblogs.com/chinxi/p/7354779.html 在此进行拓展,学习强制代理.但是发现网上大多例子都有个"天坑"(我是这 ...

3D打印技术之切片引擎（5）

[此系列文章基于熔融沉积( fused depostion modeling, FDM )成形工艺] 从这一篇文章开始,就开始说填充.在3D打印切片技术中,填充算法是最核心的部分.3D打印技术的常用的 ...

sql使用存储过程和交易

在过去的一年.学习数据库的时候学校有存储过程.永远只是知道一些理论,我不知道怎么用.时隔一年,最终找到怎样使用存储过程了. 在机房收费系统中.有些操作.须要多次运行sql语句,多次运行完毕才算是完毕这 ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.024 s.