HDFS 上传文件不均衡和Balancer太慢的问题

向HDFS上传文件，如果是从某个datanode开始上传文件，会导致上传的数据优先写满当前datanode的磁盘，这对于运行分布式程序是非常不利的。

解决的办法：

1、从其他非datanode节点上传

可以将hadoop的安装目录复制一份到一个不在集群中的节点（直接从非datanode的namenode上传也可以，但是这样不太好，会增加namenode的负担，并且时间长了会让namenode上放了各种乱七八糟的文件），在这个节点上不启动任何hadoop进程，但是可以当作客户端使用。上传文件到集群。

也可以自己写一个上传文件的程序、在其他非集群节点上运行来上传文件。在程序中要注意自己设置必要的配置，比如namenode的url、副本数等等，因为如果不设置，会使用你程序中所带的hadoop jar包中的默认配置，而不是集群的默认配置。

2、使用balancer

可以通过

hdfs balancer -threshold XX

来进行平衡，xx是一个百分比。关于这个命令的用法网上一搜一大堆。

但是默认情况下，这个平衡时非常慢的，因为默认的hadoop不允许balancer占用很大的网络带宽。

可以通过

hdfs dfsadmin -setBalanacerBandwidth newbandwidth

来设置带宽，单位是字节

时间： 2024-08-05 09:04:45

HDFS 上传文件不均衡和Balancer太慢的问题的相关文章

【转载】HDFS 上传文件不均衡和Balancer太慢的问题

向HDFS上传文件,如果是从某个datanode开始上传文件,会导致上传的数据优先写满当前datanode的磁盘,这对于运行分布式程序是非常不利的. 解决的办法: 1.从其他非datanode节点上传可以将hadoop的安装目录复制一份到一个不在集群中的节点(直接从非datanode的namenode上传也可以,但是这样不太好,会增加namenode的负担,并且时间长了会让namenode上放了各种乱七八糟的文件),在这个节点上不启动任何hadoop进程,但是可以当作客户端使用.上传文件到集群

HDFS设计思路，HDFS使用，查看集群状态，HDFS，HDFS上传文件，HDFS下载文件，yarn web管理界面信息查看，运行一个mapreduce程序，mapreduce的demo

26 集群使用初步 HDFS的设计思路 l 设计思想分而治之:将大文件.大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析: l 在大数据系统中作用: 为各类分布式运算框架(如:mapreduce,spark,tez,--)提供数据存储服务 l 重点概念:文件切块,副本存放,元数据 26.1 HDFS使用 1.查看集群状态命令: hdfs dfsadmin –report 可以看出,集群共有3个datanode可用也可打开web控制台查看HDFS集群

HDFS上传文件

1.client端向namenode请求上传文件,查看文件是否存在,是否有权限往hdfs写入 2.如果文件不存在,权限OK就根据副本数N(例如2个),根据网络拓扑选择N个离client端最近的datanode返回client. (把文件切块,一个一个block块的请求namenode,返回最优的datanode,datanode要定期向namenode发送心跳,默认3秒,看是否存活,如果死掉,选择返回的主机时就会排除掉死掉的主机) 3.block1与返回的其中一台主机建立联系(dfs01),这台

向hdfs上传文件，运行程序，查看结果

1.建立目录 hdfs dfs -mkdir -p /data/wc/input 2.上传文件 hdfs dfs -D dfs.blocksize=1048576 -put /setup/data.txt /data/wc/input 3.进入运行程序所在目录 cd /software/hadoop-2.7.7/share/hadoop/mapreduce 4.运行程序 hadoop jar hadoop-mapreduce-examples-2.7.7.jar wordcount /data/

HDFS上传文件错误--hdfs:DFSClient:DataStreamer Exception

今天上传文件的时候发现传上去的文件为空,错误提示如上述所示,原来是IP地址改掉了对呀应etc/hosts下面的IP地址也要改变,永久改ip命令-ifconfig eth0 xxx·xxx·xxx·xxx up.改完IP即可同时ssh其他节点也可以成功

Hadoop hdfs上传文件权限问题

问题描述: hadoop在虚拟机中的linux系统下在本地通过eclipse编写代码把本地文件上传至hadoop平台的指定目录代码如下: @Test public void upload() throws IOException { Configuration conf = new Configuration(); conf.set("fs.defaultFS", "hdfs://lujie01:9000/"); FileSystem fs = FileSyst

【SpringMVC】使用SpringMVC进行上传文件！

写在前面: 之前在上传文件的时候,使用的是commons-file-upload这个插件,非常方便,能控制每个文件的大小,总共大小,缓存,以及支持多个文件的同时上传,但是写一次上传文件的后台代码量太大了,如图如果有多个地方都要上传文件,每一次都要复制,粘贴一遍又一遍,实在是太麻烦,后台想到能不能把相同的代码都封装到一个方法,然后需要使用的时候再稍微改一下就行了,在封装的过程中,发现原来SpringMVC有自带的上传文件组件,遂用了一下,感觉多然很方面! 下面详细的说一下使用步骤! 1,准备好相

使用html5特性--ajax上传文件

在html5以前,ajax上传文件算是一个比较麻烦的事,要是想显示一下上传进度就更不容易.遇到这种情况往往需要借助于第三方插件,比如jquery.fileupload.js.如今html5已经技术已经变成一个非常流行.非常新潮的技术了,各个浏览器厂商也实现了不少的html5规范,如今文件上传有了html5的支持已经变的相当容易了,我自己尝试了一下用javascript原生的api来实现ajax上传文件,为了页面不至于太丑,我使用了bootstrap的一些组件,先上效果图: 实现的功能介绍: aj

数据采集之Web端上传文件到Hadoop HDFS

前言最近在公司接到一个任务,是关于数据采集方面的. 需求主要有3个: 通过web端上传文件到HDFS; 通过日志采集的方式导入到HDFS; 将数据库DB的表数据导入到HDFS. 正好最近都有在这方面做知识储备.正所谓养兵千日,用兵一时啊.学习到的东西只有应用到真实的环境中才有意义不是么. 环境这里只做模拟环境,而不是真实的线上环境,所以也很简单,如果要使用的话还需要优化优化. OS Debian 8.7 Hadoop 2.6.5 SpringBoot 1.5.1.RELEASE 说明一下,这

猜你喜欢

oracle 11g 建库建表增删改查约束

一.建库 1.(点击左上角带绿色+号的按钮) 2.(进入这个界面,passowrd为密码.填写完后点击下面一排的Test按钮进行测试,无异常就点击Connect) 二.建表 1-1. create t ...

保护眼睛——f.lux（linux，windows，mac 均可）

相信很多人会整天的对着电脑,说实话这对眼睛的伤害是很大的,但是有些工作就是对着电脑.所以,装一款保护眼睛的软件实际上还是很有帮助的,但是最好的方法还是大家注意保护眼睛就行. 1.什么是f.lux f. ...

TMS320F28027 之PWM 模块

总结一下28027的PWM模块. 28027包含PWM1,PWM2,PWM3,PWM4四个PWM模块,所有的PWM模块的寄存器结构都一样,唯一的区别就是同步时的操作顺序不一样. PWM模块可以分为时基 ...

点云算法

泊松表面重建(Poisson Surface Reconstruction) http://www.cs.jhu.edu/~misha/Code/PoissonRecon/Version6.11/ h ...

JDK1.8(JRE)和eclipse-jee不匹配解决放

想要用eclipse-jee的话,需要jdk1.8一下版本才能用. 1.需要下载jdk1.7 2.把jdk1.7安装(不需要设置环境变量). 3.在项目上右击选择properties 4.选择Java ...

android学习第一篇基本概念

一. 1. Android 四大組件 Activity , Service , BroadcastReceiver ,ContentProvider 2. 多個Activity組成棧,當前A ...

安装python sklearn经验总结

1. 需要安装 numpy, scipy, 和sklearn和ipython,Cython sklearn,ipython, Cython都可以通过pip来安装.但scipy,可能还有numpy必须通 ...

又见The request sent by the client was syntactically incorrect ()

前几天遇到过这个问题(Ref:http://www.cnblogs.com/xiandedanteng/p/4168609.html),问题在页面的组件name和和注解的@param名匹配不对,这个好 ...

【转】A Fast General Purpose Lock-Free Queue for C++

From:http://moodycamel.com/blog/2014/a-fast-general-purpose-lock-free-queue-for-c++ So I've been bit ...

解决：Android4.3锁屏界面Emergency calls only - China Unicom与EMERGENCY CALL语义反复

从图片中我们能够看到,这里在语义上有一定的反复,当然这是谷歌的原始设计.这个问题在博客上进行共享从表面上来看着实没有什么太大的意义,只是因为Android4.3在锁屏功能上比起老版本号做了非常大的修改 ...

使用Charles代理功能将网络请求定向至本地文件

最近在进行前端开发的时候发现Charles一个非常牛叉的功能,就是可以通过代理将网络请求定向至本地文件.有了这个功能在进行iOS开发时就可以在缺少后台接口的情况下更加真实的进行数据mock了(反正我们 ...

Spring MVC之cookies跟session 数据绑定

在我最早接触web开发的中学时代,学习的asp技术对于session的概念其实很清楚 Session("username")="张三"下次要用的时候,直接用se ...

mysqlbinlog配置和还原数据

开启mysqlbin-log================================================================================[mysql ...

一、iOS控制器view的创建方式(官方文档翻译)

1.loadView方法官方说明如下: You should never call this method directly. The view controller calls this metho ...

Hibernate的increment主键生成机制带来的问题

最近给学校做的系统,总出现主键插入冲突的问题.主键是通过hibernate自动生成的,设置increment属性,总出现Duplicate entry的错误.搜到解决方案如下: 在网站运行在apach ...

程序设计语言的定义及一般特征

1.程序语言的定义程序设计语言是一个记号系统.记号系统有两个特征: 语法:语言的一组规则,用来形成和产生程序语义:语言的意思,用来表示程序的逻辑关系 2.语法相关的一些定义字母表:元素的非空有限 ...

android setCookie 免登录

CookieSyncManager.createInstance(getActivity()); CookieManager cookieManager = CookieManager.getInst ...

聚集索引与非聚集索引性能

数据量比较大,性能堪忧,400多W的记录,查询30多W的数据聚集快4倍,需要注意的是如果是复合索引,必须是首列,非首列索引没效果. ,记得网上的文章说聚集索引弥足珍贵,这个索引必须建好,遗憾的是一般都 ...

spring 基础回顾 tips02

spring注入list .set. map. properties 1.list 在xml中这样写: <property name="list"> <list& ...

CSS 中定位的使用

position relative 设置区块基准点为左上角(相对定位以区块的左上角为基准点仍然会暂居原来的位置) absolute 设置网页的为基准点左上角(绝对定位以网页的左上角为基准点不会 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.020 s.