CDH5.5.1 安装Spark ON Yarn环境

CDH对我们已经封装了,我们如果需要Spark on Yarn,只需要yum安装几个包就可以了。

前面的文章我有写过如果搭建自己内网的CDH Yum服务器,请参考《CDH 5.5.1 Yum源服务器搭建》http://www.cnblogs.com/luguoyuanf/p/56187ea1049f4011f4798ae157608f1a.html

如果没有内网Yarn服务器的,请使用Cloudera的yum服务器。

wget https://archive.cloudera.com/cdh5/redhat/6/x86_64/cdh/cloudera-cdh5.repo

开始安装(所有的从节点)

yum install -y spark-core spark-python

是不是很简单?

测试:

spark-submit --class org.apache.spark.examples.SparkPi     --master yarn     --deploy-mode cluster     --driver-memory 4g     --executor-memory 2g     --executor-cores 2--queue thequeue /usr/lib/spark/lib/spark-examples.jar 2

来自为知笔记(Wiz)

时间: 2024-12-25 17:18:13

CDH5.5.1 安装Spark ON Yarn环境的相关文章

cdh 上安装spark on yarn

在cdh 上安装spark on yarn 还是比较简单的,不需要独立安装什么模块或者组件. 安装服务 选择on yarn 模式:上面 Spark 在spark 服务中添加 在yarn 服务中添加 getWay 后重新 启动服务端 用hdfs 用户进入 spark bin 目录 cd /opt/cloudera/parcels/CDH/lib/spark/bin 执行 ./spark-submit --class org.apache.spark.examples.SparkPi --maste

spark on yarn 安装笔记

yarn版本:hadoop2.7.0 spark版本:spark1.4.0 0.前期环境准备: jdk 1.8.0_45 hadoop2.7.0 Apache Maven 3.3.3 1.编译spark on yarn 下载地址:http://mirrors.cnnic.cn/apache/spark/spark-1.4.1/spark-1.4.1.tgz 解压后进入spark-1.4.1 执行如下命令,Setting up Maven’s Memory Usage export MAVEN_O

Windows下安装Spark环境

根据博客总结 https://blog.csdn.net/nxw_tsp/article/details/78281533 需要的安装软件可以在网盘下载: 链接:https://pan.baidu.com/s/1BgtNERopcxUf7DwiultMnw 提取码:nvnv 一.安装Scala 下载地址:http://www.scala-lang.org/download/all.html 进入页面后选择一个Scala版本进行下载,我选择的是Scala2.12.0版本.特别注意的是看帖子又的说S

yarn如何全局安装命令以及和环境变量的关系

npm全局安装 npm i -g xxx yarn 全局安装 yarn global add xxx 然而你可能会发现npm全局安装后的命令可以直接使用,而yarn却不行,这是为什么呢? 我们来查看下npm和yarn的bin目录 bin是binary的缩写,意思是存放二进制可执行文件的目录,比如exe,msi等,而npm,yarn全局安装的命令就会从这里面开始查找可执行文件. 那为什么系统会从这个路径下进行查找可执行文件呢?这就要说下环境变量. 简单的说计算机在执行命令的时候是在环境变量找对应的

Spark on Yarn彻底解密(DT大数据梦工厂)

内容: 1.Hadoop Yarn的工作流程解密: 2.Spark on Yarn两种运行模式实战: 3.Spark on Yarn工作流程解密: 4.Spark on Yarn工作内幕解密: 5.Spark on Yarn最佳实践: 资源管理框架Yarn Mesos是分布式集群的资源管理框架,和大数据没关系,但是可以管理大数据的资源 ==========Hadoop Yarn解析============ 1.Yarn是Hadoop推出的资源管理器,是负责分布式(大数据)集群计算的资源管理的,负

Oozie Spark on YARN requirement failed

软件环境: CDH:5.7.3:Oozie:4.1.0-CDH5.7.3 : Spark:1.6.0-cdh5.7.3-hadoop2.6.0-cdh5.7.3 : Hadoop:hadoop2.6.0-cdh5.7.3(HDFS 采用HA方式): 问题描述: 在使用CDH5.7.3版本的时候,发起一个Oozie工作流,该工作流使用Spark On YARN的方式提交一个Spark程序,但是在Oozie中该程序运行失败,同时找到YARN监控中对应的任务,发现出现下面的错误(该Spark任务如果使

Spark on Yarn部署

环境:Linux, 8G 内存,60G 硬盘,Hadoop 2.2.0,Spark 1.0.0, Scala 2.10.3 1. 安装Hadoop Yarn 集群 http://blog.csdn.net/zlcd1988/article/details/36008681 这篇Blog很详细的介绍了如何部署Hadoop Yarn 集群. 2. 安装Scala http://www.scala-sbt.org/download.html 下载 scala-2.10.3.tgz $ tar -zxv

Spark 1.0.0 横空出世 Spark on yarn 部署(hadoop 2.4)

就在昨天,北京时间5月30日20点多.Spark 1.0.0终于发布了:Spark 1.0.0 released 根据官网描述,Spark 1.0.0支持SQL编写:Spark SQL Programming Guide 个人觉得这个功能对Hive的市场的影响很小,但对Shark冲击很大,就像win7和winXP的关系,自相残杀嘛? 这么着急的发布1.x 版是商业行为还是货真价实的体现,让我们拭目以待吧~~~~ 本文是CSDN-撸大湿原创,如要转载请注明出处,谢谢:http://blog.csd

Spark(十二) -- Spark On Yarn & Spark as a Service & Spark On Tachyon

Spark On Yarn: 从0.6.0版本其,就可以在在Yarn上运行Spark 通过Yarn进行统一的资源管理和调度 进而可以实现不止Spark,多种处理框架并存工作的场景 部署Spark On Yarn的方式其实和Standalone是差不多的,区别就是需要在spark-env.sh中添加一些yarn的环境配置,在提交作业的时候会根据这些配置加载yarn的信息,然后将作业提交到yarn上进行管理 首先请确保已经部署了Yarn,相关操作请参考: hadoop2.2.0集群安装和配置 部署完