7.4mapreduce配置调优

1.1.1 配置调优

通过调节配置参数，达到较优的性能。Map配置参数

属性	类型	默认值	作用
mapreduce.Task.io.sort.mb	Int	100	Map输出结果的缓冲区大小兆为单位
mapreduce.map.sort.spill.percent	Float	80	缓冲区占用比例达到这个阈值时，就会生成溢出文件，将map输出结果写入磁盘溢出文件
mapreduce.task.io.sort.factor	Int	10	将溢出文件按照这个数量进行合并成一个文件
mapreduce.map.combine.minspills	Int	3	溢出文件数量少于这个数时，不使用combine，大于时使用combine函数
mapreduce.map.output.compress	Bool	False	是否压缩输出map结果
mapreduce.map.output.compress.codec	class	Org.apache.hadoop.io.compress.defaultCodec	Map输出的编解码器
Mapareduce.shuffle.max.thread	int	0	节点管理器的工作线程数量，用于map输出到reduce，0表示两倍处理器的线程数

给shuffle尽量提供多的内存空间，map和reduce函数中尽量少用内存。Map尽量减少写磁盘的数量来获得最佳性能，一次是最佳的情况。Mapreduce计数器记录写磁盘次数，帮助调优。

属性	类型	默认值	说明
mapreduce.reduce.shuffle.parallelcopies	int	5	复制map结果到reduce的线程数
mapreduce.reduce.shuffle.maxfetchfailures	int	10	提取map输出最大尝试次数，超出后报错
mapreduce.task.io.sort.factor	int	10	合并文件数最大值，与map共用
mapreduce.reduce.shuffle.input.buffer.percent	float	0.70	copy阶段用于保存map输出缓冲区占堆内存比例
mapreduce.reduce.shuffle.merge.percent	float	0.66	缓冲区使用率大于这个百分比时开始溢出写入磁盘
mapreduce.reduce.shuffle.inmem.threshold	int	1000	和percent一起控制溢出写入磁盘，Map输出的个数大于这值时，启动合并输出和磁盘溢出写过程，小于等于0表示没有阈值，此时只由缓冲池比例来控制
mapreduce.reduce.input.buffer.percent	float	0.0	reduce函数开始运行时，默认情况内存都用于reduce函数，也就是map输出都写入到磁盘。但是为了减少写磁盘的数据量，允许map输出保存在内存中的比例。内存中的map输出所占的堆内存比例不得高于这个值，

自己开发了一个股票智能分析软件，功能很强大，需要的点击下面的链接获取：

https://www.cnblogs.com/bclshuai/p/11380657.html

原文地址：https://www.cnblogs.com/bclshuai/p/12232214.html

时间： 2024-09-30 16:19:30

7.4mapreduce配置调优的相关文章

Elasticsearch 基础理论 & 配置调优

一.简介 ElasticSearch是一个基于Lucene的搜索服务器.它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口.Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎. 它不但包括了全文搜索功能,还可以进行以下工作: 分布式实时文件存储,并将每一个字段都编入索引,使其可以被搜索. 实时分析的分布式搜索引擎. 可以扩展到上百台服务器,处理PB级别的结构化或非结构化数据. 使用案例: 维基百科使用Ela

Linux下jetty报java.lang.OutOfMemoryError: PermGen space及Jetty内存配置调优解决方案

Linux下的jetty报java.lang.OutOfMemoryError: PermGen space及Jetty内存配置调优解决方案问题linux的jetty下发布程序后再启动jetty服务时,发现启动不了,从日志中找到报java.lang.OutOfMemoryError: PermGen space. 原因分析PermGen space,全称是Permanent Generation space,指的是内存3带中的永久区域.当java中间件启动时,会将相关的jar包和.class加载

Nginx缓存的配置调优，Tengine安装和配置。

反向代理缓存: nginx做为反向代理时,能够将来自upstream的响应缓存至本地,并在后续的客户端请求同样内容时直接从本地构造响应报文. 可以在http全局配置内定义缓存. http{ proxy_cache_path /tmp/nginx/cache levels=1:2 keys_zone=cone:10m max_size=1g; } 在Server里调用. server { listen 80; server_name localhost; location / { p

MySQL 5.6初始配置调优

原文链接: What to tune in MySQL 5.6 after installation原文日期: 2013年09月17日翻译日期: 2014年06月01日翻译人员: 铁锚随着大量默认选项的改进, MySQL 5.6比以前版本需要调优的选项大为减少. 在本文中我将讲述需要优化的配置项. InnoDB设置 innodb_buffer_pool_size -- 默认值为 128M. 这是最主要的优化选项,因为它指定 InnoDB 使用多少内存来加载数据和索引(data+indexe

Web 中间件 php-fpm 配置调优

一.php-fpm.conf 主要配置参数 pm = dynamic; 表示使用哪种进程数量管理方式 dynamic 表示 php-fpm 进程数是动态的,最开始是 pm.start_servers 指定的数量,如果请求较多,则会自动增加,保证空闲的进程数不小于pm.min_spare_servers,如果进程数较多,也会进行相应清理,保证多余的进程数不多于 pm.max_spare_servers: static 表示 php-fpm 进程数是静态的,进程数自始至终都是 pm.max_chi

tomcat配置调优与安全总结

作为运维,避免不了与tomcat打交道,然而作者发现网络上关于tomcat配置和调优安全的文章非常散,通过参考各位大神的相关技术文档,根据作者对tomcat的运维经验,总结了一些tomcat的基础运维注意事项,希望对广大技术兄弟们有些帮助. 1 功能优化 1.1 硬件资源对tomcat的影响系统硬件性能直接影响tomcat的并发量,起决定作用的是CPU和MEM,CPU运行速度提升,会带来tomcat响应时间的缩短,mem大小决定工程需要内存的大小和工程的并发数量. 1.2

Hbase集群搭建及所有配置调优参数整理及API代码运行

最近为了方便开发,在自己的虚拟机上搭建了三节点的Hadoop集群与Hbase集群,hadoop集群的搭建与zookeeper集群这里就不再详细说明,原来的笔记中记录过.这里将hbase配置参数进行相应整理,方便日后使用. 首先vi ~/.bash_profile将hbase的环境变量进行配置,最后source ~./bash_profile使之立即生效 1.修改hbase-env.sh 由于我使用的是外置的zookeeper,所以这里HBASE_MANAGES_ZK设置为,设置参数: # The

实验一个修改日志文件配置调优的案例

关于oracle 联机日志文件的配置,没有多少好说的,出于对性能的影响考虑,两个规则,首先 :日志文件是否够大:其次:日志文件组数是否够多.至于文件存放的物理磁盘,由于日志文件是顺序写的,即使放到固态盘上,与普通的机械硬盘相比,优势并不多. 这里通过实验来验证由于日志文件配置的问题,对oracle系统的整体吞吐量造成的瓶颈. 第一次测试:日志文件大小为50M,共三组.如下: 这里我们使用harmmerdb 压力测试工具来对数据库施压 e 之前预创建了20个warehouse,这里配置20个虚拟

tomcat配置调优

Tomcat有很多方面,我从内存.并发.缓存四个方面介绍优化方法. 一.Tomcat内存优化 Tomcat内存优化主要是对 tomcat 启动参数优化,我们可以在 tomcat 的启动脚本 catalina.sh 中设置 JAVA_OPTS 参数. JAVA_OPTS参数说明 -server 启用jdk 的 server 版: -Xms java虚拟机初始化时的最小内存: -Xmx java虚拟机可使用的最大内存: -XX:PermSize 内存永久保留区域 -XX:MaxPermSize 内存