CDH集群中YARN的参数配置


前言:Hadoop 2.0之后,原先的MapReduce不在是简单的离线批处理MR任务的框架,升级为MapReduceV2(Yarn)版本,也就是把资源调度和任务分发两块分离开来。而在最新的CDH版本中,同时集成了MapReduceV1和MapReduceV2(Yarn)两个版本,如果集群中需要使用Yarn做统一的资源调度,建议使用Yarn。

CDH对Yarn的部分参数做了少了修改,并且添加了相关的中文说明,本文着重介绍了CDH中相比 MapReduceV1一些参数改动的配置。

一、CPU配置

ApplicationMaster虚拟 CPU 内核

yarn.app.mapreduce.am.resource.cpu-vcores       // ApplicationMaster占用的cpu内核数(Gateway--资源管理)

容器虚拟 CPU 内核

yarn.nodemanager.resource.cpu-vcores        //单 个NodeManager 最大能分配的cpu核数(NodeManager
--资源管理)

结论:当前 nodemanager 申请的 ApplicationMaster数总 和小于 nodemanager最大cpu内核数

二、内存配置

容器内存   

yarn.nodemanager.resource.memory-mb      //单个NodeManager能分配的最大内存(NodeManager --资源管理)       
        //Memory Total= 单个NodeManager内存 * 节点数

结论:提交任务占用内存Memory Used 小于Memory Total

Map 任务内存   

mapreduce.map.memory.mb                         //为作业的每个 Map 任务分配的物理内存量  (Gateway--资源管理 )

结论:map或reduce的内存需求不大于appmaster的内存需求

最大容器内存  

yarn.scheduler.maximum-allocation-mb     //单个任务可申请最大内存 (ResourceManager--资源管理 )

三、同一个Map或者Reduce 并行执行

Map 任务推理执行

mapreduce.map.speculative                       //Gateway

Reduce 任务推理执行

mapreduce.reduce.speculative                   //Gateway

四、JVM重用

启用 Ubertask 优化 :

mapreduce.job.ubertask.enable | (默认false)     //true则表示启用jvm重用(Gateway--性能)

jvm重用的决定参数如下:

Ubertask最大 Map   

mapreduce.job.ubertask.maxmaps                   //超过多少个map启用jvm重用(Gateway--性能)

Ubertask最大 Reduce   

mapreduce.job.ubertask.maxreduces               //超过多少  Reduce  启用jvm重用,目前支持1个 (Gateway--性能)

Ubertask最大作业大小   

mapreduce.job.ubertask.maxbytes                  //application的输入大小的阀值,默认为 block大小(Gateway--性能)

五、其他参数

给spark加日志编辑 spark-defaults.conf

spark.yarn.historyServer.address=http://cloud003:18080/

更多精彩内容请关注:http://bbs.superwu.cn

关注超人学院微信二维码:

关注超人学院java免费学习交流群:

时间: 2024-12-28 21:29:36

CDH集群中YARN的参数配置的相关文章

LVS集群DR、NAT模型配置, 及使用ldirectord完成LVS DR模型集群搭建

首先我们有三台主机:其中172.16.192.168作为前台主机:另外172.16.254.18和172.16.254.105作为后端主机,作为测试分别运行有web服务,并测试可用,如下图. 一.LVS NAT模型集群配置实验 1.首先在后端Real Server上设置默认网关,执行前端Virtual Server 2.在前端Virtual Server上开启路由转发功能 3.配置前端LVS集群 4.测试 总结:经过初步测试,我们可以看出已经可以实现rr轮询调度,修改相应的调度算法则可以实现不同

通过tarball形式安装HBASE Cluster(CDH5.0.2)——配置分布式集群中的YARN ResourceManager 的HA

<?xml version="1.0"?> <!-- Licensed under the Apache License, Version 2.0 (the "License"); you may not use this file except in compliance with the License. You may obtain a copy of the License at http://www.apache.org/licenses

十六:mapreduce程序在yarn集群中的调度过程

mapreduce程序在yarn集群中的调度过程: 1.客户端想ResouceManager提交一个job作业,申请运行一个MR的程序,RPC调用 2.ResourceManager返回一个由创建的jobid目录. 3.在HDFS该目录下有一个以jobid命名的目录并,写入job.xml和job分片数据,job.jar,jobConfinger 4.通知RM,job的资源文件提交完毕. 5.初始化一个任务 然后放到队列中去 6.nodemanager 和ResouceManager 保持心跳进行

集群中配置多台计算机之间ssh无密码登录的一种简便方法

当我们在配置多台计算,使之可以相互使用无密码登录-ssh,之前都是一台一台的配置,现在一台A上添加B,然后在另一台B上再次添加A,这样使得 authorized_keys中的内容相同,但时并不是完全相同,比如添加顺序.如果超过2台,这种配置就相当复杂了,而且容易出错.后来,在网上看到 了一种简单的配置,所有机器只需配置一遍即可. 1.安装ssh.  sudo apt-get install ssh. 安装完成后会在~目录(当前用户主目录,即这里的/home/xuhui)下产生一个隐藏文件夹.ss

通过tarball形式安装HBASE Cluster(CDH5.0.2)——如何配置分布式集群中的zookeeper

集群安装总览参见这里 Zookeeper的配置 1,/etc/profile中加入zk的路径设置,见上面背景说明. 2,进入~/zk/conf目录,复制zoo_sample.cfg为zoo.cfg vim zoo.conf tickTime=2000 initLimit=10 syncLimit=5 dataDir=/home/hadoop/hdfs/zk/data dataLogDir=/home/hadoop/hdfs/zk/log clientPort=2181 server.21=zk1

高可用集群中fence的配置

通过上一节我们已经知道了如何在集群中添加资源,下面我们来看下如何配置fence设备(也称为stonith). 先了解什么是fence 每个节点之间互相发送探测包进行判断节点的存活性.一般会有专门的线路进行探测,这条线路称为"心跳线"(上图直接使用eth0线路作为心跳线).假设node1的心跳线出问题,则node2和node3会认为node1出问题,然后就会把资源调度在node2或者node3上运行,但node1会认为自己没问题不让node2或者node3抢占资源,此时就出现了脑裂(sp

集群中配置多台机器之间 SSH 免密码登录

集群中配置多台机器之间 SSH 免密码登录 问题描述 由于现在项目大多数由传统的单台机器部署,慢慢转变成多机器的集群化部署. 但是,这就涉及到机器间的 SSH 免密码互通问题. 当集群机器比较多的时候,如何能快速简洁地配置机器之间的免密码登录呢? 完美方案 1.分别查看集群的机器上,是否安装了 SSH,并且服务正常运行 ps -ef | grep ssh 2.如果步骤 1 检查后,确认没有安装 SSH,可以通过如下命令安装 SSH sudo apt-get install ssh 找到隐藏目录.

MySql集群FAQ----mysql主从配置与集群区别、集群中需要多少台计算机呢?为什么? 等

抽取一部分显示在这里,如下, What's the difference in using Clustervs using replication? 在复制系统中,一个MySQL主服务器会更新一个或多个从服务器.事务是顺序地提交的,因此一个慢事务就可能导致从服务器比主服务器落后一段时间.这也意 味着,如果主服务器出错失败了,那么从服务器可能会缺少记录最后的那一小部分事务日志.如果使用的是事务安全存储引擎的话,例如InnoDB, 那么事务日志则会完全记录到从服务器上去或者完全不记录,但是复制不能保

优化cdh集群性能-可在安装集群前操作002

优化cdh集群性能-可在安装集群前操作002//读完cdh官方文档后,可知的优化操作 可在<03搭建cdh 生产环境前的Linux 优化(涉及到Linux内存参数优化)>https://blog.51cto.com/12445535/2365948 这步同时操作 讲解了:提供了一些性能问题的解决方案,并介绍了配置最佳实践. 1.禁止tuned 服务 //是内存分配管理//关于tuned服务是什么?RHEL/CentOS 在 6.3 版本以后引入了一套新的系统调优工具 tuned/tuned-a