1:什么是yarn
YARN是一个框架管理器,用户可以将各种各样的计算框架移植到YARN之上,由YARN进行统一管理和资源分配、本质上是一个资源统一管理系统,将各种框架运行在YARN之上,可以实现框架的资源统一管理和分配,使他们共享一个集群,而不是“一个框架一个集群”,这可大大降低运维成本和硬件成本
比如的:MapReduce、Spark、impala等主流技术
2:Spark on Yarn
yarn-client 和 yarn-cluster
yarn-client:
Spark Dirver 先在客户机上运行,然后通过Yarn申请使用exeutor以运行Spark Task
yarn-cluster:
Spark Driver作为一个ApplicationMaster在Yarn集群中先启动,然后再由ApplicationMaster向RM申请使用executor以运行Spark Task
3:环境配置情况
4:运行代码编写
在集群通信不是很好的时候,现在一个节点部署(客户机)、采用yarn-client模式
./bin/spark-submit -----提交脚本
--master yarn-client -----提交模式//( yarn-cluster)
--class ***.main() ----运行的Dirver
--executor-memory 3g ----参数设置
--driver-memory 1g
****.jar -----打包的jar包
hdfs://hadoop1:8000/user/*** -----hdfs参数
时间: 2024-10-10 15:03:32