Hadoop 三大调度器分析

如要转载，请注上作者和出处。

须知：我们下载的是hadoop-2.7.3-src 源码。这个版本默认调度器是Capacity调度器。在2.0.2-alpha版本的时候，有人汇报了一个fifo调度器的bug，社区把默认调度器从原来的fifo切换成capacity了。

　　在Hadoop中，调度器是一个可插拔的模块，用户可以根据自己的实际应用要求设计调度器，然后在配置文件中指定相应的调度器，这样，当Hadoop集群启动时，便会加载该调度器。当前Hadoop自带了几种调度器，分别是FIFO（默认调度器），Capacity Scheduler和FairScheduler，通常境况下，这些调度器很难满足公司复杂的应用需求，因而往往需要开发自己的调度器。本文介绍了Hadoop调度器的基本编写方法，参考1

　　Hadoop1 调度框架：Hadoop的调度器是在JobTracker中加载和调用的，用户可以在配置文件mapred-site.xml中的mapred.jobtracker.taskScheduler属性中指定调度器。本节分析了Hadoop调度器的调度框架，实际上分析了两个重要类：TaskScheduler和JobTracker的关系。

　　Hadoop2 调度框架：Hadoop的调度器是在ResourceManager中加载和调用的，用户可以在配置文件yarn-site.xml中的yarn.resourcemanager.scheduler.class属性中指定调度器，默认是 org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler ; 还可以配置Fifo调度器，org.apache.hadoop.yarn.server.resourcemanager.scheduler.fifo.FifoScheduler ；还可以配置Fair调度器， org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler 。本节分析了Hadoop调度器的调度框架，类比Hadoop1 ，三个调度器的共同扩展类是 AbstractYarnScheduler <T extends SchedulerApplicationAttempt, N extends SchedulerNode> ，它的功能类似Hadoop1的TaskScheduler ； 如果用户要编写自己的调度器，需要继承抽象类AbstractYarnScheduler。

　　MapReduce在Hadoop2中称为MR2或YARN，将JobTracker中的资源管理及任务生命周期管理（包括定时触发及监控），拆分成两个独立的服务，用于管理全部资源的ResourceManager以及管理每个应用的ApplicationMaster，ResourceManager用于管理向应用程序分配计算资源，每个ApplicationMaster用于管理应用程序、调度以及协调。一个应用程序可以是经典的MapReduce架构中的一个单独的任务，也可以是这些任务的一个DAG（有向无环图）任务。ResourceManager及每台机上的NodeManager服务，用于管理那台机的用户进程，形成计算架构。每个应用程序的ApplicationMaster实际上是一个框架具体库，并负责从ResourceManager中协调资源及与NodeManager(s)协作执行并监控任务。参考2

架构图：

其中ResourceManager包含两个主要的组件：定时调用器(Scheduler)以及应用管理器(ApplicationManager)。

定时调用器(Scheduler)：定时调度器负责向应用程序分配置资源，它不做监控以及应用程序的状态跟踪，并且它不保证会重启由于应用程序本身或硬件出错而执行失败的应用程序。

应用管理器(ApplicationManager)：应用程序管理器负责接收新任务，协调并提供在ApplicationMaster容器失败时的重启功能。

节点管理器（NodeManager）： NodeManager是ResourceManager在每台机器的上代理，负责容器的管理，并监控他们的资源使用情况（cpu，内存，磁盘及网络等），以及向 ResourceManager/Scheduler提供这些资源使用报告。

应用总管（ApplicationMaster）：每个应用程序的ApplicationMaster负责从Scheduler申请资源，以及跟踪这些资源的使用情况以及任务进度的监控。

我们先分析YarnScheduler，如下所示：

Hadoop 三大调度器包括， Fifo ， Capacity 以及 Fair 调度器，如下所示：

1　　Fifo调度器

　　对应的类是 FifoScheduler.java ，在 hadoop-2.7.3-src/hadoop-yarn-project/hadoop-yarn/hadoop-yarn-server/hadoop-yarn-server-resourcemanager/src/main/java/org/apache/hadoop/yarn/server/resourcemanager/scheduler/fifo/FifoScheduler.java 。

2　　Capacity调度器

　　对应的类是 CapacityScheduler.java ，在 hadoop-2.7.3-src/hadoop-yarn-project/hadoop-yarn/hadoop-yarn-server/hadoop-yarn-server-resourcemanager/src/main/java/org/apache/hadoop/yarn/server/resourcemanager/scheduler/capacity/CapacityScheduler.java 。

3　　Fair调度器

　　对应的类是 FairScheduler.java，在 hadoop-2.7.3-src/hadoop-yarn-project/hadoop-yarn/hadoop-yarn-server/hadoop-yarn-server-resourcemanager/src/main/java/org/apache/hadoop/yarn/server/resourcemanager/scheduler/fair/FairScheduler.java 。

　　这三个调度器类都

时间： 2024-12-18 20:12:38

Hadoop 三大调度器分析

Hadoop 三大调度器分析的相关文章

深入Hadoop的调度器

Hadoop的调度器总结

第一次作业：Linux 2.6.32的进程模型与调度器分析

Hadoop Yarn调度器的选择和使用

第一次作业：关于Linux进程模型及CFS调度器分析

Hadoop YARN 调度器（scheduler） —— 资源调度策略

第一次作业：Linux 2.6.28进程模型与CFS调度器分析

MapReduce调度器

工作流调度器azkaban概述