Hadoop优化配置

1、数据输入小文件处理:

(1)合并小文件:对小文件进行归档、自定义 inputformat 将小文件存储成sequenceFile 文件。

SequenceFile:https://blog.csdn.net/en_joker/article/details/79648861

(2)采用 ConbinFileInputFormat 来作为输入,解决输入端大量小文件场景。

(3)对于大量小文件 Job,可以开启 JVM 重用。

2、map阶段:

(1)增大环形缓冲区大小。由 100M扩大到 200M。

(2)增大环形缓冲区溢写的比例。由 80%扩大到 90%

(3)减少对溢写文件的 merge 合并次数。

(4)不影响实际业务的前提下,采用 combiner 提前合并,减少 I/O。

3、reduce 阶段:

(1)合理设置 map 和 reduce 数:两个都不能设置太少,也不能设置太多。太少,会导致 task 等待,延长处理时间;太多,会导致 map、reduce 任务间竞争资源,造成处理超时等错误。

(2)设置 map、reduce 共存:调整 slowstart.completedmaps 参数,使 map 运行到一定程度后,reduce 也开始运行,减少 reduce 的等待时间。

(3)规避使用 reduce,因为 Reduce 在用于连接数据集的时候将会产生大量的网络消耗。

(4)增加每个 reduce 去 map 中拿数据的并行数。

(5)集群性能可以的前提下,增大 reduce 端存储数据内存的大小。

4、IO 传输:

(1)采用数据压缩的方式,减少网络 IO 的时间。安装 Snappy 和 LZOP 压缩编码器。

(2)使用 SequenceFile 二进制文件。

5 、整体

(1)MapTask 默认内存大小为 1G,可以增加 MapTask 内存大小为 4-5g 。

(2)ReduceTask 默认内存大小为 1G,可以增加 ReduceTask 内存大小为 4-5g 。

(3)可以增加 MapTask 的 cpu 核数,增加 ReduceTask 的 cpu 核数 。

(4)增加每个 container 的 cpu 核数和内存大小 。

(5)调整每个 Map Task 和 Reduce Task 最大重试次数 。

原文地址:https://www.cnblogs.com/guoyu1/p/12236729.html

时间: 2024-07-31 11:30:52

Hadoop优化配置的相关文章

学习笔记:Twitter核心数据类库团队的Hadoop优化经验

转自:http://blog.jobbole.com/88283/ 一.来源 Streaming Hadoop Performance Optimization at Scale, Lessons Learned at Twitter (Data platform @Twitter) 二.观后感2.1 概要此稿介绍了Twitter的核心数据类库团队,在使用Hadoop处理离线任务时,使用的性能分析方法,及由此发现的问题和优化手段,对如何使用JVM/HotSpot profile(-Xprof)分

MyEclipse使用技巧(包括使用快捷键,智能提示,颜色配置,svn搭建,优化配置等) (转的)

转自:http://blog.163.com/magicc_love/blog/static/185853662201111101210847/ 1.安装 2.注册 3.配置 window ----> preferences (1)配置 JDK java--->Installed JREs --> Add ---> JRE name ---> JRE home directory ---> <ok> (2)配置字符编码 General --> Work

eclipse的使用、优化配置

工欲善其事,必先利其器 博客:http://blog.csdn.net/zhangerqing(转载请说明出处) 一.简介 eclipse可谓是Java开发界的神器,基本占据了大部分的Java开发市场,而且其官方还对其他语言提供支持,如C++,Ruby,JavaScript等等.为什么使用它?我想离不开下面的一些因素:1.开发界面简洁.大方.2.丰富的插件支持.3.为Java量身定做.4.及其人性化设计. 不得不说,eclipse是业界被广为认可的开发利器,所以,对于这么一款软件,我们必须要学会

Hadoop的配置过程(虚拟机中的伪分布模式)

1引言 hadoop如今已经成为大数据处理中不可缺少的关键技术,在如今大数据爆炸的时代,hadoop给我们处理海量数据提供了强有力的技术支撑.因此,了解hadoop的原理与应用方法是必要的技术知识. hadoop的基础原理可参考如下的三篇论文: The Google File System, 2003 MapReduce: Simplified Data Processing on Large Clusters, 2004 Bigtable: A Distributed Storage Syst

减少TIME_WAIT时间的优化配置

减少TIME_WAIT时间的优化配置 建立TCP需要三次握手才能建立,而断开连接则需要四次握手.整个过程如下图所示: net.ipv4.tcp_max_syn_backlog=8192 增加TCP SYN队列长度,使系统可以处理更多的并发连接 net.ipv4.tcp_syncookies = 1 #表示开启SYN Cookies.当出现SYN等待队列溢出时,启用cookies来处理,可防范少量SYN攻击,默认为0,表示关闭: net.ipv4.tcp_tw_reuse = 1 #表示开启重用.

CentOS 7 Hadoop安装配置

前言:我使用了两台计算机进行集群的配置,如果是单机的话可能会出现部分问题.首先设置两台计算机的主机名 root 权限打开/etc/host文件 再设置hostname,root权限打开/etc/hostname文件设置 从机设为Slaver.Hadoop 1.安装java jdk 并配置环境 centos 自带安装了一个jdk,如果我们要自己安装jdk并配置环境的话首先卸载掉原本的jdk 在命令行模式下健入命令:yum remove java (root用户,非root用户请在命令前加sudo)

Hadoop常见配置

core-site.xml:   fs.default.name:hdfs://hadoop:9000 fs.tmp.dir:/usr/local/hadoop/tmp   hdfs-site.xml:   dfs.name.dir: dfs.name.edits.dir:eidts  dfs.replicationHadoop常见配置,布布扣,bubuko.com

apache2优化配置总结

apache2优化配置总结 运行和测试环境 Ubuntu server 12.04 LTS 配置参数调整 配置文件 一般在/etc/apache2/下    apache2.conf       conf.d/secrity     default.conf  下面我写到的配置参数都存在在这几个文件中 1.hostnamelookups  off 域名查找 开启这个会增加AP的负担, 减慢访问速度 建议关闭 2. sethandler server-status 关闭这个否则暴露信息. 3.al

Linux php.ini的安全优化配置

Linux php.ini的安全优化配置 (1) PHP函数禁用找到 disable_functions = 该选项可以设置哪些PHP函数是禁止使用的,PHP中有一些函数的风险性还是相当大的,可以直接执行一些CentOS系统级脚本命令,如果允许这些函数执行,当PHP 程序出现漏洞时,损失是非常严重的!以下我们给出推荐的禁用函数设置: disable_functions = phpinfo,passthru,exec,system,popen,chroot,escapeshellcmd,escap