clouder learning7:Hadoop资源管理

Linux Control Groups(cgroups):在操作系统级别进行资源分配,可通过Cloudera Static Service Pools配置。

YARN调度器配置:对运行在YARN上的应用进行资源配置,比如M/R,implala。可通过Cloudera 动态资源池进行配置。

以下资源可以通过cgroups配置进行限制:

Memory Hard Limit

– If a process exceeds this limit, the kernel swaps out some of the process’s memory; if it cannot do so, the process will be killed

Memory Soft Limit
– When memory contenFon exists on the host, the OS targets the process to not exceed this limit

CPU Shares
– When CPU contenFon exists on the host, processes with higher CPU shares will be given more CPU time

I/O Weight 
– Specify the proportion of I/O access available to the read requests performed by a process

通过YARN进行资源配置:

YARN scheduler决定何时何处给应用分配Containers,Containers被赋予memory,CPU等资源。

YARN支持的scheduler类型:

1.FIFO Scheduler:先进先出调度器,基于时间顺序分配资源。

2.Capacity Scheduler:资源分配到资源池,各资源池中采用FIFO分配资源。

3.Fair Scheduler(default,recommend):公平调度器。资源分配到带有权重的资源池。各资源池之间按权重分配资源。

公平调度器的分配份额永远不会高于实际的需要。

单一考虑:应用内存均等的分,CPU均等的分。

综合考虑:应用内存,CPU消耗内存综合考虑分配。

每个pool上可以设权重,可以设最小值。

YARN调度器属性配置:yarn.resourcemanager.scheduler.class。

YARN没指定pool,会默认初始化一个和用户同名的pool。

YARN也支持预先指定一个pool,运行时动态指定一个pool。

YARN work node资源配置:

yarn.nodemanager.resource.memory-mb:配置NodeManager的tasks可使用的RAM。

yarn.nodemanager.resource.cpu-vcores:配置NodeManager的tasks可使用的CPU个数。

yarn.scheduler.minimum-allocation-mb :配置ResourceManager内存。CM default: 1G。

yarn.scheduler.minimum-allocation-vcores:配置ResourceManager的CPU。CM default:1 vcore。

yarn.scheduler.increment-allocation-mb:内存规整化单位,CM default 512M。如果资源请求1.6G,则会分配512*4=2G。

yarn.scheduler.increment-allocation-vcores:cpu规整化单位。

YARN Container资源分配:

mapreduce.map.memory.mb :Map task内存分配,CM default 1G。

mapreduce.reduce.memory.mb :Reduce task内存分配,CM default 1G。

yarn.app.mapreduce.am.resource.mb:ApplicationMaster内存分配,CM default 1G。Used by NodeManagers。

yarn.app.mapreduce.am.command-opts:Java堆空间分配,默认1G。

mapreduce.map.java.opts:Java执行Mapper时的堆大小。

mapreduce.reduce.java.opts:Java执行Reducer时的堆大小。

YARN tuning:

Calculate the resources needed for other processes:

– Reserve 3GB or 20% of total memory for the OS

– Reserve resources for any non-Hadoop applicaFons

– Reserve resources for other any Hadoop components

– HDFS caching (if configured), NodeManager, DataNode

– Impalad, HBase RegionServer, Solr, etc.

Configure the YARN scheduler and applicaBon framework settings

– Based on the worker node profile determined above

– Determine the number of containers needed to best support YARN applicaFons based on the type of workload

– Monitor usage and tune esFmated values to find opFmal seSngs

时间: 2024-11-08 16:21:03

clouder learning7:Hadoop资源管理的相关文章

Hadoop资源管理

Hadoop资源管理由两部分组成:资源表示模型和资源分配模型.其中,资源表示模型用于描述资源的组织方式,Hadoop采用"槽位"(slot)组织各节点上的资源:而资源分配模型则决定如何将资源分配给各个作业/任务,在Hadoop中,这一部分由一个插拔式的调度器完成. Hadoop引入了"slot"概念表示各个节点上的计算资源.为了简化资源管理,hadoop将各个节点上的资源(CPU.内存和磁盘等)等量切分成若干份,每一份用一个slot表示,同时规定一个Task可根据实

初识hadoop

今日根据<hadoop权威指南>和炼数成金的黄志洪老师的视频,了解了hadoop的基本原理.基本构架和简单实现. hadoop本身是一个分布式文件系统(HDFS)和计算框架(MapReduce):YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,不仅仅只能运行MapReduce. 为了实现单机hadoop,首先必须下载安装相应的JDK,一般放置在~/

Spark+hadoop+mllib及相关概念与操作笔记

Spark+hadoop+mllib及相关概念与操作笔记 作者: lw 版本: 0.1 时间: 2016-07-18 1.调研相关注意事项 a) 理解调研 调研的意义在于了解当前情况,挖掘潜在的问题,解决存在的疑问,并得到相应的方案. b) 调研流程 首先明确和梳理现有的疑问是什么,要通过调研解决什么问题,然后再去做调研,发现问题,再解决问题. c) 调研成果 最终需要得到结论与方案,以及详尽的论证理由,让别人信服. d) 书写格式 版本与作者以及时间可以以表格的形式,整齐明了. 结论简洁明了,

# Apache Hadoop Yarn: Yet Another Resource Negotiator论文解读

纯属云平台管理学习菜鸟的笔记,参照许多大牛的博客,如有侵权,请联系,立刻删除. Abstract 1) tight coupling of a specific programming model with the re- source management infrastructure, forcing developers to abuse the MapReduce programming model, and 2) centralized handling of jobs' contro

Hadoop - YARN 概述

一 概述 Apache Hadoop YARN (Yet Another Resource Negotiator,还有一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统.可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率.资源统一管理和数据共享等方面带来了巨大优点. YARN最初是为了修复MapReduce实现里的明显不足,并对可伸缩性(支持一万个节点和二十万个内核的集群).可靠性和集群利用率进行了提升.YARN实现这些需求的方式是,把Job Tracker

Hadoop 2.x伪分布式环境搭建测试

Hadoop 2.x伪分布式环境搭建测试 标签(空格分隔): hadoop hadoop,spark,kafka交流群:459898801 1,搭建hadoop所需环境 卸载open JDK rpm -qa |grep java rpm -e –nodeps [java] 1.1,在/opt/目录下创建四个目录: modules/ software/ datas/ tools/ 解压hadoop-2.5.0及jdk-7u67-linux-x64.tar.gz至modules目录下. $tar -

Hadoop生态系统简介及大数据相关技术

1.Hadoop 是一个能够对大量数据进行分布式处理的软件框架.具有可靠.高效.可伸缩的特点.Hadoop的核心是HDFS和Mapreduce,hadoop2.0还包括YARN. 2.HDFS Hadoop的分布式文件系统.是Hadoop体系中数据存储管理的基础.它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行.HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序. 3.MapReduce(分布式计算框架) M

Hadoop 系列(一)基本概念

Hadoop 系列(一)基本概念 一.Hadoop 简介 Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构,它可以使用户在不了解分布式底层细节的情況下开发分布式程序,充分利用集群的威力进行高速运算和存储. 从其定义就可以发现,它解決了两大问题:大数据存储.大数据分析.也就是 Hadoop 的两大核心:HDFS 和 MapReduce. HDFS(Hadoop Distributed File System) :是可扩展.容错.高性能的分布式文件系统,异步复制,一次写入多次读

Hadoop 和 MPP 的比较

如果我们回顾5年前会发现,那就是当时Hadoop不是大多数公司的选择,特别是那些要求稳定和成熟的平台的企业. 在这一刻,选择非常简单:当您的分析数据库的大小超过5-7 TB时,您只需启动MPP迁移项目,并转移到经过验证的企业MPP解决方案之一. 没有人听说过"非结构化"数据 - 如果你要分析日志,只需用Perl / Python / Java / C解析它们并加载到分析数据库中. 没有人听说过高速数据 - 只需使用传统的OLTP RDBMS进行频繁更新,并将其块插入到分析DWH(数据仓