hadoop相关进程介绍

1.NameNode:

相当于一个领导者，负责调度，比如你需要存一个1280m的文件

如果按照128m分块那么namenode就会把这10个块（这里不考虑副本）

分配到集群中的datanode上并记录对于关系。当你要下载这个文件的时候namenode就知道在那些节点上给你取这些数据了。它主要维护两个 map 一个是文件到块的对应关系一个是块到节点的对应关系。

2. secondarynamenode：

它是namenode的一个快照，会根据configuration中设置的值来

决定多少时间周期性的去cp一下namenode，记录namenode中

的metadata及其它数据

3. NodeManager（NM）:

是YARN中每个节点上的代理，它管理Hadoop集群中单个计算节点

包括与ResourceManger保持通信，监督Container的生命周期管理，

监控每个Container的资源使用（内存、CPU等）情况，追踪节点健

康状况，管理日志和不同应用程序用到的附属服务（auxiliary service）

4.DataNode:

a.DataNode的需要完成的首要任务是K-V存储

b.完成和namenode 通信，这个通过IPC 心跳连接实现。

此外还有和客户端其它datanode之前的信息交换

c.完成和客户端还有其它节点的大规模通信，这个需要直接

通过socket 协议实现。

5.ResourceManager:

在YARN中，ResourceManager负责集群中所有资源的统一管理和分配，它接收来自各个节点（NodeManager）的资源汇报信息，并把这些信息按照一定的策略分配给各个应用程序（实际上是ApplicationManager）

RM与每个节点的NodeManagers (NMs)和每个应用的ApplicationMasters (AMs)一起工作。

a.NodeManagers 遵循来自ResourceManager的指令来管理单一节点上的可用资源。

b.ApplicationMasters负责与ResourceManager协商资源与NodeManagers合作启动容器

6.Hadoop2 MR-JobHistory服务介绍

1）MR-JobHistory服务目标

主要是向用户提供历史的mapred Job 查询

详细解释：

a）在运行MR Job时，MR 的 ApplicationMaster会根据mapred-site.xml配置文件中的配置，将MR Job的job history信息保存到指定的hdfs路径（首先保存到临时目录，然后mv到最终目录）

b）如果在yarn-site.xml中，没有配置nodemanage的LogAggregation功能，则historyserver无法提供mr日志明细查询的功能（在提交mr job时，yarn和mapred的配置都是必须的）

c）historyserver向外提供两个接口，web接口可以提供jobhistory和明细日志查询的功能，而restApi只提供jobhistory查询的功能

时间： 2024-10-28 08:14:30

Linux基础--进程管理相关命令介绍(2)