HDFS的平衡

　　当复制大规模数据到HDFS时，要考虑的一个重要因素是文件系统的平衡。当系统中的文件块能够很好地均衡分布到集群的各个节点时，HDFS才能够更好地工作，所以要保证distcp操作不会打破这个平衡。回到前面复制1000GB数据的例子，参见HDFS的distcp博文。当设定-m为1,就意味着1个Map操作可以完成1000GB的操作。这样不仅会让复制操作非常慢，而且不能充分利用集群的性能。最重要的是，复制文件的第一个块都要存储在执行Map任务的那个节点上，直到这个节点的磁盘被写满，显然这个节点是不平衡的。通常我们通过设置更多的、超过集群节点的Map任务数来避免不平衡情况的发生，所以最好的选择是刚开始并且还是使用的默认属性值，每个节点分配20个Map任务。！！！

　　当然，我们不能保证集群总能够保持平衡，有时可能会限制Map的数量以便节点可以被其他任务使用，这样HDFS还提供了一个工具balancer。来改变集群中的文件块存储的平衡。

时间： 2024-08-26 02:09:13

HDFS的平衡的相关文章

HDFS——数据平衡策略

Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添加新的数据节点.当HDFS出现不平衡状况的时候,将引发很多问题,比如MR程序无法很好地利用本地计算的优势,机器之间无法达到更好的网络带宽使用率,机器磁盘无法利用等等.可见,保证HDFS中的数据平衡是非常重要的. 在Hadoop中,包含一个Balancer程序,通过运行这个程序,可以使得HDFS集群达到一个平衡的状态,使用这个程序的命令如下: sh $HADOOP_HOME/bin/start-balancer

[转载]HDFS初探之旅

转载自 http://www.cnblogs.com/xia520pi/archive/2012/05/28/2520813.html , 感谢虾皮工作室这一系列精彩的文章. Hadoop集群(第8期)_HDFS初探之旅 1.HDFS简介 HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上.它所具有的高容错.高可靠性.高可扩展性.高

HDFS内副本和块的状态分析

前言在HDFS内,我们通常听到的最频繁的2个名词术语:副本(Replica)和块(Block).几乎可以这么说,HDFS所有涉及到文件的操作都与这两个词相关.但是大家可能对这2个概念的理解还仅仅停留在一个比较浅的层面:比如说就是一个单一的replica或是一个单一的block块.尤其是在对块的层面,一个block块在最终完成后,它会经历哪些状态过程呢?这些细节的内容就是本文所准备阐述的. 副本/块的状态在了解副本.块在文件的写入过程中的状态变化情况之前,我们需要对它们所有可能存在的状态做一个

HDFS的命令行操作

1.namenode –format:格式化DFS 文件系统 2.secondaryNameNode: 运行DFS的 SecondaryNameNode 进程 hadoop secondarynamenode [-checkpoint [force]] //当 EditLog超过规定大小( 默认64MB)时,启动检查 secondarynamenode的checkpoint 过程:如果启用 force选项,则强制执行checkpoint过程. [-geteditsize]

Hadoop ->> HDFS(Hadoop Distributed File System)

HDFS全称是Hadoop Distributed File System.作为分布式文件系统,具有高容错性的特点.它放宽了POSIX对于操作系统接口的要求,可以直接以流(Stream)的形式访问文件系统中的数据. HDFS能快速检测到硬件故障,也就是数据节点的Failover,并且自动恢复数据访问. 使用流形式的数据方法特点不是对数据访问时快速的反应,而是批量数据处理时的吞吐能力的最大化. 文件操作原则: HDFS文件的操作原则是“只写一次,多次读取”.一个文件一旦被创建再写入数据完毕后就不再

HDFS副本放置策略及机架感知

副本放置策略副本放置策略的基本思想是: 第一个block副本放在和client所在的node里(如果client不在集群范围内,则这第一个node是随机选取的,当然系统会尝试不选择哪些太满或者太忙的node). 第二个副本放置在与第一个节点不同的机架中的node中(随机选择). 第三个副本和第二个在同一个机架,随机放在不同的node中. 如果还有更多的副本就随机放在集群的node里. Hadoop的副本放置策略在可靠性(block在不同的机架)和带宽(一个管道只需要穿越一个网络节点)中做了一个

HDFS副本机制&负载均衡&机架感知&访问方式&健壮性&删除恢复机制&HDFS缺点

副本机制 1.副本摆放策略第一副本:放置在上传文件的DataNode上:如果是集群外提交,则随机挑选一台磁盘不太慢.CPU不太忙的节点上:第二副本:放置在于第一个副本不同的机架的节点上:第三副本:与第二个副本相同机架的不同节点上:如果还有更多的副本:随机放在节点中: 2.副本系数 1)对于上传文件到HDFS时,当时hadoop的副本系数是几,那么这个文件的块副本数就有几份,无论以后怎么更改系统副本系数,这个文件的副本数都不会改变,也就是说上传到HDFS系统的文件副本数是由当时的系统副本数决定的

二：HDFS 命令指南

命令具体选项请参考: http://hadoop.apache.org/docs/r2.6.3/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html 1.HDFS命令通过bin/hdfs执行,语法如下: hdfs [--config confdir] [COMMAND] [GENERIC_OPTIONS] [COMMAND_OPTIONS] 配置文件用户命令基本选项命令选项 COMMAND_OPTION

HDFS Federation

This guide provides an overview of the HDFS Federation feature and how to configure and manage the federated cluster.这篇文档包好了hdfs federation特点的概述和如何配置并且管理federation集群.Background(背景) HDFS has two main layers:HDFS有两种主要功能:• Namespaceo Consists of d

猜你喜欢

利用tinyproxy在Linux上搭建HTTP Proxy Server

之所以需要用到HTTP Proxy Server并不是为了要翻墙,而是为了让没有公网IP地址的内网主机通过有公网IP地址的外网主机访问Internet.举个例子,阿里云ECS在购买时可以不购买公网IP ...

3.OGG函数

1.COMPUTE 一般用来计算目标端和源段的字段值,使用这个函数计算出目标端对应列想要的值 Use the @COMPUTE function to return the value of ...

day09作业01用户登录与验证

import timeLoginTime = time.asctime( time.localtime(time.time()) )print ("time %s" % Login ...

查询计划Hash和查询Hash

查询计划hash和查询hash 在SQL Server 2008中引入的围绕执行计划和缓冲的新功能被称为查询计划hash和查询hash.这是使用针对查询或查询计划的算法来生成二进制hash值的二进制对 ...

There is an error while getting planid. No Free partitions available

问题概述 Oracle Advanced Supply Chain Planning最初的设置职责的时候有点问题,不知是不是要打什么补丁或其它配置什么东东,, 这个提示,,但我查到的分区是还有可用分区 ...

VS中多项目联合开发技巧

1. 新建目录,将它设定为本次project的工作目录,新建一个Code Files目录 2. 在Code Files目录里.新建一个Win32控制台程序(总控程序),再新建其他的项目比方项目A ...

修改 Docker 默认网桥地址

在公司里搭建docker测试环境,需要访问内部的服务, 由于网段是172.17.导致该容器没有办法正常访问公司内部服务.翻了一下官方的帮助文档,找到了修改默认网桥地址的办法. 首先停止正在使用的 Do ...

mysql left join 左连接查询关联n多张表

eft join 左连接即以左表为基准,显示坐标所有的行,右表与左表关联的数据会显示,不关联的则不显示.关键字为left join on. **基本用法如下: select table a left ...

【Gym 100712B】Rock-Paper-Scissors

题题意对给定的对手的出拳顺序,如果只能按几个R,然后几个P,再几个S的顺序出拳(几个也可以是0个),那么求赢的方法有多少种. 分析我原来想枚举P开始的位置和S开始的位置然后算得分,但是超时了o( ...

Java多线程之可见性与原子性——synchronized VS volatile

程序举例: 代码: package com.synch; public class SynchronizedDemo { //共享变量 private boolean ready = false; p ...

官方文档，才是正途-docker-compose

需要的ingress网络映射,还是host宿主机端口映射: https://docs.docker.com/compose/compose-file/#secrets ================ ...

由du，df 得出不同结果反应出的问题

最近遇到了因为某种异常情况导致某目录下日志暴增,在修复异常情况后,发现pm2 不能启动,查看日志发现原因为空间不足. 使用du -sh查看确实为空间不足.在rm -rf 删除之后,仍然不能启动.这时用 ...

关于uboot中tftp上传内存数据到tftp服务器

uboot下的tftp下载功能是非常重要和常见的功能.但是偶尔有些特殊需求的人需要使用uboot的tftp具有上传功能.默认的uboot没有tftp上传功能,如果需要修改uboot代码.使用时键入第4 ...

[原创][FPGA]时钟分频之奇分频（5分频）

使用两个计数模块分别计数,得到两个波形进行基本与或操作完成.直接贴出代码部分如下. 1 module div_freq( 2 iCLK, 3 iRST_n, 4 oCLK 5 ); 6 7 input ...

网络实训——服务器应用系统的实践

1 设计内容与设计要求 1.1设计内容课题10:服务器应用系统的实践服务器指一个管理资源并为用户提供服务的计算机软件,通常分为文件服务器.数据库服务器和应用程序服务器.运行以上软件的计算机或计算机 ...

在angular中结合使用jquery的生成二维码插件

最近在开发项目中,需要在ionic框架中使用到jquery的生成二维码功能的插件,起初我直接在templates中写js代码: 发现这段代码根本就不会执行,原因是js代码必须要在该模块的作用域范围内才 ...

Android 进程常驻----native保活5.0以上方案推演过程以及代码

正文: 上一篇我们通过父子进程间建立双管道,来监听进程死掉,经过测试,无耗电问题,无内存消耗问题,可以在设置中force close下成功拉起,也可以在获取到root权限的360/cleanmaste ...

paper:synthesizable finit state machine design techniques using the new systemverilog 3.0 enhancements之onehot coding styles(encoded-parameter style with registered outputs不推荐但是经常有人写这样的代码)

这样写法,不利与综合,case语句中比较也是full-vector比较.

JVM学习积累

1. Java代码编译和执行的整个过程包含了三个重要的机制: Java源码编译机制类加载机制类执行机制 2. 关于Java源码编译机制 Java源码编译由以下三个过程组成: 分析和输入符号表注解 ...

Membrane Filter Press

When citizens believe about olive oil they normally associate it Spain or Italy - this mainly due to ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.019 s.