ResourceManager:
存在单点故障,ResourceManager有备份节点,当主节点出现故障,将切换到从节点继续工作。
NodeManager :
失败之后,ResourceManager将失败任务告诉对应的ApplicationMaster ,
ApplicationMaster 决定如何去处理失败任务。
ApplicationMaster :
失败后,由ResourceManager负责重启。
ApplicationMaster需要处理内部任务的容错问题。
ResourceManager会保存已经运行的task,重启后无需重新运行。
时间: 2024-10-10 06:41:24