【转载】HDFS 上传文件不均衡和Balancer太慢的问题

向HDFS上传文件，如果是从某个datanode开始上传文件，会导致上传的数据优先写满当前datanode的磁盘，这对于运行分布式程序是非常不利的。

解决的办法：

1、从其他非datanode节点上传

可以将hadoop的安装目录复制一份到一个不在集群中的节点（直接从非datanode的namenode上传也可以，但是这样不太好，会增加namenode的负担，并且时间长了会让namenode上放了各种乱七八糟的文件），在这个节点上不启动任何hadoop进程，但是可以当作客户端使用。上传文件到集群。

也可以自己写一个上传文件的程序、在其他非集群节点上运行来上传文件。在程序中要注意自己设置必要的配置，比如namenode的url、副本数等等，因为如果不设置，会使用你程序中所带的hadoop jar包中的默认配置，而不是集群的默认配置。

2、使用balancer

可以通过：

hdfs balancer -threshold XX

来进行平衡，xx是一个百分比。关于这个命令的用法网上一搜一大堆。

但是默认情况下，这个平衡时非常慢的，因为默认的hadoop不允许balancer占用很大的网络带宽。

可以通过：hdfs dfsadmin -setBalanacerBandwidth newbandwidth

来设置带宽，单位是字节。这个值将覆盖dfs.balance.bandwidthPerSec参数。

注意:新值在DataNode上不是持久的。

时间： 2024-11-07 09:37:08

【转载】HDFS 上传文件不均衡和Balancer太慢的问题的相关文章

HDFS 上传文件不均衡和Balancer太慢的问题

向HDFS上传文件,如果是从某个datanode开始上传文件,会导致上传的数据优先写满当前datanode的磁盘,这对于运行分布式程序是非常不利的. 解决的办法: 1.从其他非datanode节点上传可以将hadoop的安装目录复制一份到一个不在集群中的节点(直接从非datanode的namenode上传也可以,但是这样不太好,会增加namenode的负担,并且时间长了会让namenode上放了各种乱七八糟的文件),在这个节点上不启动任何hadoop进程,但是可以当作客户端使用.上传文件到集群

HDFS设计思路，HDFS使用，查看集群状态，HDFS，HDFS上传文件，HDFS下载文件，yarn web管理界面信息查看，运行一个mapreduce程序，mapreduce的demo

26 集群使用初步 HDFS的设计思路 l 设计思想分而治之:将大文件.大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析: l 在大数据系统中作用: 为各类分布式运算框架(如:mapreduce,spark,tez,--)提供数据存储服务 l 重点概念:文件切块,副本存放,元数据 26.1 HDFS使用 1.查看集群状态命令: hdfs dfsadmin –report 可以看出,集群共有3个datanode可用也可打开web控制台查看HDFS集群

HDFS上传文件

1.client端向namenode请求上传文件,查看文件是否存在,是否有权限往hdfs写入 2.如果文件不存在,权限OK就根据副本数N(例如2个),根据网络拓扑选择N个离client端最近的datanode返回client. (把文件切块,一个一个block块的请求namenode,返回最优的datanode,datanode要定期向namenode发送心跳,默认3秒,看是否存活,如果死掉,选择返回的主机时就会排除掉死掉的主机) 3.block1与返回的其中一台主机建立联系(dfs01),这台

向hdfs上传文件，运行程序，查看结果

1.建立目录 hdfs dfs -mkdir -p /data/wc/input 2.上传文件 hdfs dfs -D dfs.blocksize=1048576 -put /setup/data.txt /data/wc/input 3.进入运行程序所在目录 cd /software/hadoop-2.7.7/share/hadoop/mapreduce 4.运行程序 hadoop jar hadoop-mapreduce-examples-2.7.7.jar wordcount /data/

HDFS上传文件错误--hdfs:DFSClient:DataStreamer Exception

今天上传文件的时候发现传上去的文件为空,错误提示如上述所示,原来是IP地址改掉了对呀应etc/hosts下面的IP地址也要改变,永久改ip命令-ifconfig eth0 xxx·xxx·xxx·xxx up.改完IP即可同时ssh其他节点也可以成功

Hadoop hdfs上传文件权限问题

问题描述: hadoop在虚拟机中的linux系统下在本地通过eclipse编写代码把本地文件上传至hadoop平台的指定目录代码如下: @Test public void upload() throws IOException { Configuration conf = new Configuration(); conf.set("fs.defaultFS", "hdfs://lujie01:9000/"); FileSystem fs = FileSyst

【SpringMVC】使用SpringMVC进行上传文件！

写在前面: 之前在上传文件的时候,使用的是commons-file-upload这个插件,非常方便,能控制每个文件的大小,总共大小,缓存,以及支持多个文件的同时上传,但是写一次上传文件的后台代码量太大了,如图如果有多个地方都要上传文件,每一次都要复制,粘贴一遍又一遍,实在是太麻烦,后台想到能不能把相同的代码都封装到一个方法,然后需要使用的时候再稍微改一下就行了,在封装的过程中,发现原来SpringMVC有自带的上传文件组件,遂用了一下,感觉多然很方面! 下面详细的说一下使用步骤! 1,准备好相

使用html5特性--ajax上传文件

在html5以前,ajax上传文件算是一个比较麻烦的事,要是想显示一下上传进度就更不容易.遇到这种情况往往需要借助于第三方插件,比如jquery.fileupload.js.如今html5已经技术已经变成一个非常流行.非常新潮的技术了,各个浏览器厂商也实现了不少的html5规范,如今文件上传有了html5的支持已经变的相当容易了,我自己尝试了一下用javascript原生的api来实现ajax上传文件,为了页面不至于太丑,我使用了bootstrap的一些组件,先上效果图: 实现的功能介绍: aj

数据采集之Web端上传文件到Hadoop HDFS

前言最近在公司接到一个任务,是关于数据采集方面的. 需求主要有3个: 通过web端上传文件到HDFS; 通过日志采集的方式导入到HDFS; 将数据库DB的表数据导入到HDFS. 正好最近都有在这方面做知识储备.正所谓养兵千日,用兵一时啊.学习到的东西只有应用到真实的环境中才有意义不是么. 环境这里只做模拟环境,而不是真实的线上环境,所以也很简单,如果要使用的话还需要优化优化. OS Debian 8.7 Hadoop 2.6.5 SpringBoot 1.5.1.RELEASE 说明一下,这

猜你喜欢

KeyMob 效果最佳的移动广告平台

移动广告平台这对国内广告主以及APP开发者来说无疑是个好福利,而选择什么样的移动平台.做出什么形式的广告.移动平台能带来多少流量及收益,已成为他们最关注的事情. KeyMob移动广告平台与众多优质品牌 ...

PList解析

PList解析 PList 主要在苹果开发中常用,很多后台并不会返回 PList 的数据格式,有关 Plist 的反序列化知道即可 /** 参数 1. data: 要反序列化的二进制数据 2. o ...

查看一些特定sql需求的书写

user表,5个人abcde, content表10篇文章,一个人对应两篇文章,有 time字段,查询出五个人的最新文章. select a.id,a.SName,a.ClsNo,a.Scorefr ...

iOS开发之监测网络状态

一.说明在网络应用中,需要对用户设备的网络状态进行实时监控,有两个目的: (1)让用户了解自己的网络状态,防止一些误会(比如怪应用无能) (2)根据用户的网络状态进行智能处理,节省用户流量,提高用户 ...

反转字符串

问题: 1.反转字符串,比如str=“hello world!!!",反转后ret=“!!!dlrow olleh"; 代码如下: #include <stdio.h> ...

书本74面方程组求解

#include <stdio.h>#include <stdlib.h>#include<math.h> int main() { double x[3]= ...

Template 和 virtual function

Template和virtual function是两种不同类型的多态. Template的多态是在编译期决定的,而virtual function的多态是在运行时决定的. 从应用形式上看,Templ ...

Bash 中的 _ 是不是环境变量

首先,我们想到的会是 export(等价于 declare -x)命令: $ export | grep 'declare -x _=' 没有找到,那么结论就是 _ 不是环境变量?当然没那么简单,否则 ...

去除inline-block元素间间隙的方法

对于inline-block元素,如几个设置为display:inline-block的span元素,在ie6.7中显示无间隙,在其他ie版本和高级浏览器中显示有间隙. <div> < ...

Math1023

题意解释: 题目意思是有一个k位的2进制的数,把他转化成10进制,如果可以转换得到题目要求的数,则输出那个2进制数.但是转换成10进制数固定的加,它还可以减.题目会给出哪一位是+,哪一位是-,分别由p ...

逐点条件、局部条件与全局条件

讲两个遇到的题. 1. $f\left( x \right)$ 在 $\left[ {0,\infty } \right)$ 上一致连续,$\forall x > 0,\mathop {\lim ...

【Android】Kill Service

花了一天时间对如何Android保证Service不被杀死研究了一下,我的手机是Nexus5,系统4.4.2. 杀死一个Service通常有以下几种可能: 1)APP自己杀死(包括调用stopServ ...

Python 开发简单爬虫 - 基础框架

1. 目标:开发轻量级爬虫(不包括需登陆的和 Javascript异步加载的) 不需要登陆的静态网页抓取 2. 内容: 2.1 爬虫简介 2.2 简单爬虫架构 2.3 URL管理器 2.4 网页下载 ...

自学php

header("Content-type: text/html; charset=utf-8"); 如果使用这句,则必须前面没有其他代码,无论echo打印的字符,还是html标签. ...

Face The Right Way

Face The Right Way Time Limit: 2000MS Memory Limit: 65536K Total Submissions: 2564 Accepted: 117 ...

spark-local-运行异常-Could not locate executable null\bin\winutils.exe in the Hadoop binaries

windows下-local模式-运行spark: 1.下载winutils的windows版本 GitHub上,有人提供了winutils的windows的版本,项目地址是:https://gith ...

《DSP using MATLAB》示例Example4.4

代码: x1 = [2, 3, 4]; x2 = [3, 4, 5, 6]; % x1 x2 sequences % n1 = 0:1:2; n2 = 0:1:3; n1 = 0:1:length(x ...

sql 数据库使用注意事项

1.在对数据库表进行操作时,一定要注意当前操作的是哪一个数据库,否则很容易引起不必要的错误.对于master数据库中的数据文件,尽量不要去对其操作. 2.可通过图形方式对数据库进行备份操作,可通过数据 ...

AFNetworking上传文件

-(void)upload{ AFHTTPRequestOperationManager *manager = [AFHTTPRequestOperationManager manager]; NSD ...

Gstreamer 中的playback插件

1. PLAYBACK插件基本介绍在早期的版本中同时存在playbin和playbin2,但是在最新的版本中,playbin2已经稳定,取代了playbin, playbin不再进行维护.下面是官网 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.017 s.