Hadoop优化配置

1、数据输入小文件处理：

（1）合并小文件：对小文件进行归档、自定义 inputformat 将小文件存储成sequenceFile 文件。

SequenceFile：https://blog.csdn.net/en_joker/article/details/79648861

（2）采用 ConbinFileInputFormat 来作为输入，解决输入端大量小文件场景。

（3）对于大量小文件 Job，可以开启 JVM 重用。

2、map阶段：

（1）增大环形缓冲区大小。由 100M扩大到 200M。

（2）增大环形缓冲区溢写的比例。由 80%扩大到 90%

（3）减少对溢写文件的 merge 合并次数。

（4）不影响实际业务的前提下，采用 combiner 提前合并，减少 I/O。

3、reduce 阶段：

（1）合理设置 map 和 reduce 数：两个都不能设置太少，也不能设置太多。太少，会导致 task 等待，延长处理时间；太多，会导致 map、reduce 任务间竞争资源，造成处理超时等错误。

（2）设置 map、reduce 共存：调整 slowstart.completedmaps 参数，使 map 运行到一定程度后，reduce 也开始运行，减少 reduce 的等待时间。

（3）规避使用 reduce，因为 Reduce 在用于连接数据集的时候将会产生大量的网络消耗。

（4）增加每个 reduce 去 map 中拿数据的并行数。

（5）集群性能可以的前提下，增大 reduce 端存储数据内存的大小。

4、IO 传输：

（1）采用数据压缩的方式，减少网络 IO 的时间。安装 Snappy 和 LZOP 压缩编码器。

（2）使用 SequenceFile 二进制文件。

5 、整体

（1）MapTask 默认内存大小为 1G，可以增加 MapTask 内存大小为 4-5g 。

（2）ReduceTask 默认内存大小为 1G，可以增加 ReduceTask 内存大小为 4-5g 。

（3）可以增加 MapTask 的 cpu 核数，增加 ReduceTask 的 cpu 核数。

（4）增加每个 container 的 cpu 核数和内存大小。

（5）调整每个 Map Task 和 Reduce Task 最大重试次数。

原文地址：https://www.cnblogs.com/guoyu1/p/12236729.html

时间： 2024-07-31 11:30:52

Hadoop优化配置的相关文章

学习笔记：Twitter核心数据类库团队的Hadoop优化经验

转自:http://blog.jobbole.com/88283/ 一.来源 Streaming Hadoop Performance Optimization at Scale, Lessons Learned at Twitter (Data platform @Twitter) 二.观后感2.1 概要此稿介绍了Twitter的核心数据类库团队,在使用Hadoop处理离线任务时,使用的性能分析方法,及由此发现的问题和优化手段,对如何使用JVM/HotSpot profile(-Xprof)分

MyEclipse使用技巧（包括使用快捷键，智能提示，颜色配置，svn搭建，优化配置等） (转的)

转自:http://blog.163.com/magicc_love/blog/static/185853662201111101210847/ 1.安装 2.注册 3.配置 window ----> preferences (1)配置 JDK java--->Installed JREs --> Add ---> JRE name ---> JRE home directory ---> <ok> (2)配置字符编码 General --> Work

eclipse的使用、优化配置

工欲善其事,必先利其器博客:http://blog.csdn.net/zhangerqing(转载请说明出处) 一.简介 eclipse可谓是Java开发界的神器,基本占据了大部分的Java开发市场,而且其官方还对其他语言提供支持,如C++,Ruby,JavaScript等等.为什么使用它?我想离不开下面的一些因素:1.开发界面简洁.大方.2.丰富的插件支持.3.为Java量身定做.4.及其人性化设计. 不得不说,eclipse是业界被广为认可的开发利器,所以,对于这么一款软件,我们必须要学会

Hadoop的配置过程（虚拟机中的伪分布模式）

1引言 hadoop如今已经成为大数据处理中不可缺少的关键技术,在如今大数据爆炸的时代,hadoop给我们处理海量数据提供了强有力的技术支撑.因此,了解hadoop的原理与应用方法是必要的技术知识. hadoop的基础原理可参考如下的三篇论文: The Google File System, 2003 MapReduce: Simplified Data Processing on Large Clusters, 2004 Bigtable: A Distributed Storage Syst

减少TIME_WAIT时间的优化配置

减少TIME_WAIT时间的优化配置建立TCP需要三次握手才能建立,而断开连接则需要四次握手.整个过程如下图所示: net.ipv4.tcp_max_syn_backlog=8192 增加TCP SYN队列长度,使系统可以处理更多的并发连接 net.ipv4.tcp_syncookies = 1 #表示开启SYN Cookies.当出现SYN等待队列溢出时,启用cookies来处理,可防范少量SYN攻击,默认为0,表示关闭: net.ipv4.tcp_tw_reuse = 1 #表示开启重用.

CentOS 7 Hadoop安装配置

前言:我使用了两台计算机进行集群的配置,如果是单机的话可能会出现部分问题.首先设置两台计算机的主机名 root 权限打开/etc/host文件再设置hostname,root权限打开/etc/hostname文件设置从机设为Slaver.Hadoop 1.安装java jdk 并配置环境 centos 自带安装了一个jdk,如果我们要自己安装jdk并配置环境的话首先卸载掉原本的jdk 在命令行模式下健入命令:yum remove java (root用户,非root用户请在命令前加sudo)

Hadoop常见配置

core-site.xml: fs.default.name:hdfs://hadoop:9000 fs.tmp.dir:/usr/local/hadoop/tmp hdfs-site.xml: dfs.name.dir: dfs.name.edits.dir:eidts dfs.replicationHadoop常见配置,布布扣,bubuko.com

apache2优化配置总结

apache2优化配置总结运行和测试环境 Ubuntu server 12.04 LTS 配置参数调整配置文件一般在/etc/apache2/下 apache2.conf conf.d/secrity default.conf 下面我写到的配置参数都存在在这几个文件中 1.hostnamelookups off 域名查找开启这个会增加AP的负担, 减慢访问速度建议关闭 2. sethandler server-status 关闭这个否则暴露信息. 3.al

Linux php.ini的安全优化配置

Linux php.ini的安全优化配置 (1) PHP函数禁用找到 disable_functions = 该选项可以设置哪些PHP函数是禁止使用的,PHP中有一些函数的风险性还是相当大的,可以直接执行一些CentOS系统级脚本命令,如果允许这些函数执行,当PHP 程序出现漏洞时,损失是非常严重的!以下我们给出推荐的禁用函数设置: disable_functions = phpinfo,passthru,exec,system,popen,chroot,escapeshellcmd,escap