hadoop优化

hadoop 分散磁盘I/O

配置 dfs.data.dir，将其值配置为多块磁盘

####假设多块磁盘被挂在以上目录中

2. mapreduce中间数据临时文件分散写

老的配置参数为，mapred.local.dir，新配置待查。

3. 以noatime和nodiratime方式装载磁盘

#atime：linux中文件在创建、修改、访问的时候会更新时间信息，是一笔很大的资源开销。

#diratime：每一次访问需要更新inode在文件系统中的访问时间。

设置：

#1:卸载磁盘

#2：修改

vi /etc/fstab

/dev/xvdc /mnt/is1 ext3 defaults,noatime,nodiratime 0 0

/dev/xvdd /mnt/is2 ext3 defaults,noatime,nodiratime 0 0

#3：重新挂载

4. 取消特权块空间

默认情况下，会保留一些文件块供特权进程使用，为防止用户进程将空间占满，使得系统进程饿死。

因为我们的集群就是使用hadoop，所以可以降低这些块的百分比。

5. vm.swappiness

该参数用来定义将内存页交换到磁盘中的主动程序，值越低表示交换频率越低。

如果交换频率过高，会导致regionserver进程因为zookeeper会话超时而被强制终止。

时间： 2024-07-31 11:30:47

hadoop优化的相关文章

学习笔记：Twitter核心数据类库团队的Hadoop优化经验

转自:http://blog.jobbole.com/88283/ 一.来源 Streaming Hadoop Performance Optimization at Scale, Lessons Learned at Twitter (Data platform @Twitter) 二.观后感2.1 概要此稿介绍了Twitter的核心数据类库团队,在使用Hadoop处理离线任务时,使用的性能分析方法,及由此发现的问题和优化手段,对如何使用JVM/HotSpot profile(-Xprof)分

Hadoop优化总结

为什幺要压缩? 压缩会提高计算速度?这是因为mapreduce计算会将数据文件分散拷贝到所有datanode上,压缩可以减少数据浪费在带宽上的时间,当这些时间大于压缩/解压缩本身的时间时,计算速度就会提高了. hadoop的压缩除了将输入文件进行压缩外,hadoop本身还可以在计算过程中将map输出以及将reduce输出进行压缩. 合理设置Map和Reduce个数:通过设置分片大小

Hadoop优化与调整

[io.file.buffer.size](core-site.xml) 用来设置缓存的大小,较大的缓存提供更高效的数据传输,但也意味着更大的内存消耗和延迟默认值为4KB,一般情况下设置为64KB(65536) [dfs.balance.bandwidthPerSec] HDFS平衡器检测集群中使用过度或者使用不足的DataNode,并在这些DataNode之间转移数据块来保证负载均衡.该参数定义了每个DataNode平衡操作所允许的最大使用带宽,单位是byte,网络带宽单位一般是bit [d

Hadoop优化配置

1.数据输入小文件处理: (1)合并小文件:对小文件进行归档.自定义 inputformat 将小文件存储成sequenceFile 文件. SequenceFile:https://blog.csdn.net/en_joker/article/details/79648861 (2)采用 ConbinFileInputFormat 来作为输入,解决输入端大量小文件场景. (3)对于大量小文件 Job,可以开启 JVM 重用. 2.map阶段: (1)增大环形缓冲区大小.由 100M扩大到 20

Hadoop！ | 大数据百科 | 数据观 | 中国大数据产业观察_大数据门户

你正在使用过时的浏览器,Amaze UI 暂不支持. 请升级浏览器以获得更好的体验! 深度好文丨读完此文,就知道Hadoop了! 来源:BiThink 时间:2016-04-12 15:14:39 作者:陈飚 “昔我十年前,与君始相识.” 一瞬间Hadoop也到了要初中择校的年龄了. 十年前还没有Hadoop,几年前国内IT圈里还不知道什么是Hadoop,而现在几乎所有大型企业的IT系统中有已经有了Hadoop的集群在运行了各式各样的任务. 2006年项目成立的一开始,“Hadoop”这个单

Hadoop十年解读与发展预测

编者按:Hadoop于2006年1月28日诞生,至今已有10年,它改变了企业对数据的存储.处理和分析的过程,加速了大数据的发展,形成了自己的极其火爆的技术生态圈,并受到非常广泛的应用.在2016年Hadoop十岁生日之际,InfoQ策划了一个Hadoop热点系列文章,为大家梳理Hadoop这十年的变化,技术圈的生态状况,回顾以前,激励以后.本文是Cloudera资深工程师讲解Hadoop,让您一篇文章就能了解Hadoop的过去和未来. “昔我十年前,与君始相识.” ——白居易,<酬元九对新栽竹有

Hadoop的概念、版本、发展史

Hadoop是什么? Hadoop: 适合大数据的分布式存储和计算平台 Hadoop不是指具体一个框架或者组件,它是Apache软件基金会下用Java语言开发的一个开源分布式计算平台.实现在大量计算机组成的集群中对海量数据进行分布式计算.适合大数据的分布式存储和计算平台. Hadoop1.x中包括两个核心组件:MapReduce和Hadoop Distributed File System(HDFS) 其中HDFS负责将海量数据进行分布式存储,而MapReduce负责提供对数据的计算结果的汇总

【大数据学习】-什么是Hadoop

什么是大数据所谓大数据,是指数据量庞大.产生数度快.结构多样的价值密度低的数据.其中,数据量庞大是指数据规模超出1.2台高性能主机所能处理范围:结构多样性是指除了关系型数据库能够处理的结构化数据还包含半结构化数据(如各类传感设备必如地镑.卫星.GPS设备等产生的纯文本格式的数据,还有良心网站NASA官网公布的txt格式的空间天气数据等成行成列的数据)和非结构化数据(视频.图像等).这些数据的价值密

Hadoop总结

一.linux简介 01.Linux简介 linux是一种自由和开放源代码的类UNIX操作系统.该操作系统的内核由林纳斯·托瓦兹在1991年10月5日首次发布.,在加上用户空间的应用程序之后,成为Linux操作系统. 应用:长时间的运行编写的程序代码,可以安装在各种计算机硬件设备中,如: 手机.平板电脑.路由器等安卓最底层运行在linux. 02.Linux的分类各种版本 1->Linux根据市场的需求不同,基本分两个方向: 1)图形化界面版:注重用户体验,目前成熟度不够(图形渲染.性能稍