Yarn 3.1.1 - Yarn 服务 - 总览

YARN 服务

总览

Yarn 服务框架为在 Yarn 原生环境里长时间运行的服务,提供了一流的支持和接口。简言之,它扮演了容器编排系统的角色,统一管理 Yarn 上运行的容器化服务。它同时支持 Docker 容器和传统基于进程的 Yarn 容器。

本框架的职责包括配置实现和挂载,生命周期管理,如在 Yarn 上启动/停止/删除服务,服务组件的启停/伸缩,服务的滚动升级。

Yarn 服务框架主要包括以下组件:

  • 一个运行在 Yarn 上的核心框架(ApplicationMaster),担任容器编排者,负责管理所有服务的生命周期。
  • 一套 RESTful API 服务器,用于用户和 Yarn 进行通信,通过简单的 JSON 描述实现服务的部署/管理。
  • 由 Yarn Registry 支持的 DNS 服务器,实现基于标准 DNS 查找过程的服务发现。

为什么要尝试 Yarn 服务框架?

Yarn 服务框架简化了部署已有服务到 Yarn 的过程。它隐藏了程序管理的所有复杂的、底层的细节,让用户从不断写新代码中解脱出来。新服务的开发者无需担心 Yarn 的内部机制,只需关心如何容器化它们的服务。

该功能带来的另一个巨大便利是,你可以在一个平台同时运行传统的批处理作业和长时服务!组合者两种工作负荷的好处显而易见:

  • 极大地简化集群操作,因为你只需要和一个集群打交道。
  • 让批处理作业和服务共享一个集群能极大地提高资源利用率。

如何启用它?

该功能依然处于实验阶段,相关的 API 和命令行都存在变动的可能。我们会持续更新文档内容。

快速开始提供了一个简单的教程,带着你熟悉部署服务到 Yarn 的主要步骤。

深入了解

  • 概念:描述框架的内部结构和用于支持在 Yarn 上运行服务的 Yarn 核心功能。
  • 服务 REST API:在 Yarn 上部署/管理服务的 API 文档。
  • 服务发现:描述 Yarn 上的服务发现机制。
  • Registry DNS:升入 Registry DNS 的内部。
  • 示例:提供一些示例服务的描述(YarnFile)。
  • 配置:讲述如何在 Yarn 上配置自定义服务。
  • 服务升级:讲述如何升级一个 Yarn 服务(实验功能)。

原文地址:https://www.cnblogs.com/shishaochen/p/9656878.html

时间: 2024-10-10 22:47:14

Yarn 3.1.1 - Yarn 服务 - 总览的相关文章

cdh之调整YARN(调优yarn 生产必做优化项)004

2019/3/26 星期二调整YARN本主题仅适用于YARN群集,并介绍如何为群集调整和优化YARN.注意:下载Cloudera YARN调整电子表格以帮助计算YARN配置. 有关简短视频概述,请参阅调整YARN应用程序.概观此概述提供YARN群集的抽象描述和YARN调整的目标. YARN群集由主机组成. 主机提供内存和CPU资源. vcore或虚拟核心是主机CPU的使用份额. 调整YARN主要包括在工作主机上最佳地定义容器. 您可以将容器视为由内存和vcores组成的矩形图. 容器执行任务.

<YARN><MRv2><Spark on YARN>

MRv1 VS MRv2 MRv1: - JobTracker: 资源管理 & 作业控制- 每个作业由一个JobInProgress控制,每个任务由一个TaskInProgress控制.由于每个任务可能有多个运行实例,因此,TaskInProgress实际管理了多个运行实例TaskAttempt,每个运行实例可能运行了一个MapTask或ReduceTask.每个Map/Reduce Task会通过RPC协议将状态汇报给TaskTracker,再由TaskTracker进一步汇报给JobTrac

Yarn Scheduler Load Simulator YARN调度负载模拟器

项目起源是因为有人希望有个模拟环境来模拟公平调度器和容量调度器,以便合理配置调度器,降低生产环境出问题的风险,详见https://issues.apache.org/jira/browse/YARN-1021.之后在hadoop2.3.0就增加了这个工具. 首先设定环境变量: export HADOOP_HOME=/usr/hadoop-2.3.0 export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop #此目录放置sls-runner.xml文件 sls-ru

将spark依赖包传入HDFS_spark.yarn.jar和spark.yarn.archive的使用

一.参数说明 启动Spark任务时,在没有配置spark.yarn.archive或者spark.yarn.jars时, 会看到不停地上传jar,非常耗时:使用spark.yarn.archive可以大大地减少任务的启动时间,整个处理过程如下. 二.spark.yarn.archive使用 1.在本地创建zip文件 [email protected]:~/env/spark$ cd jars/ [email protected]:~/env/spark$ zip spark2.0.0.zip .

Yarn 3.1.1 - Yarn 服务 - 快速开始

快速开始 本文描述了如何用 Yarn 服务框架在 Yarn 上部署服务. 配置和启动 HDFS 和 Yarn 组件 首先启动 HDFS 和 Yarn 的各个组件.为启用 Yarn 服务框架,添加以下参数到 yarn-site.xml 文件中并重启 ResourceManager,或在 ResourceManager 启动前就设置号.该参数是启用 Yarn 服务框架的 CLI 和 REST API 所必需的. <property> <description> 在 ResourceMa

spark 与 Hadoop 融合后 Neither spark.yarn.jars nor spark.yarn.archive is set

参考文献: http://blog.csdn.net/lxhandlbb/article/details/54410644 每次提交Spark任务到yarn的时候,总会出现uploading resource(打包spark jars并上传)到hdfs上. 恶劣情况下,会在这里卡住很久. 解决: 在hdfs上创建目录: hdfs dfs -mkdir   /spark_jars 上传spark的jars(spark1.6 只需要上传spark-assembly-1.6.0-SNAPSHOT-ha

解析Hadoop新一代MapReduce框架Yarn

背景 Yarn是一个分布式的资源管理系统,用以提高分布式的集群环境下的资源利用率,这些资源包括内存.IO.网络.磁盘等等.其产生的原因是为了解决原MapReduce框架的不足.最初MapReduce的committer们还可以周期性的在已有的代码上进行修改,可是随着代码的增加以及原MapReduce框架设计的不足,在原MapReduce框架上进行修改变得原来越困难,所以MapReduce的committer们决定从架构上重新设计MapReduce,使下一代的MapReduce(MRv2/Yarn

YARN简述及优势

MRv1缺点 1.JobTracker容易存在单点故障 2.JobTracker负担重,既要负责资源管理,又要进行作业调度:当需处理太多任务时,会造成过多的资源消耗. 3.当mapreduce job非常多的时候,会造成很大的内存开销,在 TaskTracker端,以mapreduce task的数目作为资源的表示过于简单,没有考虑到cpu以及内存的占用情况,如果两个大内存消耗的task被调度到了一块,很容易出现OutOfMemory异常. 4.在TaskTracker端,把资源强制划分为map

2.安装hdfs yarn

下载hadoop压缩包设置hadoop环境变量设置hdfs环境变量设置yarn环境变量设置mapreduce环境变量修改hadoop配置设置core-site.xml设置hdfs-site.xml设置yarn-site.xml设置mapred-site.xml设置slave文件分发配置启动hdfs格式化namenode启动hdfs检查hdfs启动情况启动yarn测试mr任务hadoop本地库hdfs yarn和mapreduce参数 下载hadoop压缩包 去hadoop官网下载hadoop-2