7.基于yarn的Spark集群搭建

构造分布式的Spark1.0.2集群

下载Scala 2.10.4，具体下载地址：

http://www.scala-lang.org/download/2.10.4.html

在Ubuntu机器上Scala会帮助我们自动选择“scala-2.10.4.tgz”进行下载；

安装和配置Scala

我们需要在master、slave1以及slave2上分别安装Scala

安装Scala

将Scala安装包拷贝到各台机器上

解压

新建目录/usr/lib/scala

将上述解压之后的文件夹scala-2.10.4拷贝到/usr/lib/scala下

修改配置：vim ~/.bashrc

修改配置/etc/environment，修改PATH，CLASSPATH和JAVA_HOME

在每台机器上安装完成后可以进行一下验证：

下载Spark 1.0.2，具体下载地址：

http://www.apache.org/dyn/closer.cgi/spark/spark-1.0.2/spark-1.0.2-bin-hadoop2.tgz

在master上安装和配置Spark 1.0.2集群

把下载后“spark-1.0.2-bin-hadoop2.tgz”解压到“/usr/local/spark”目录之下：

新建目录/usr/local/spark

将安装包拷贝到/usr/local/spark下并解压

配置“~/.bashrc”，设置“SPARK_HOME”并把Spark的bin目录加入到PATH之中（修改environment文件），配置完成后使用source命令使配置生效。

修改/etc/environment中的PATH

进入spark的conf目录：

第一步修改slaves文件，首先打开该文件：

我们把slaves文件的内容修改为：

第二步：配置spark-env.sh

首先把spark-env.sh.template拷贝到spark-env.sh：

打开“spark-env.sh”文件

在文件末尾加入以下内容

slave1和slave2采用和master完全一样的Spark安装配置。

启动Spark分布式集群并查看信息。

第一步：启动Hadoop集群，在master使用jps命令，在slave1和slave2上使用jps

第二步：启动Spark集群

在Hadoop集群成功启动的基础上，启动Spark集群需要使用Spark的sbin目录下“start-all.sh”：

使用jps查看集群信息

在web页面访问Spark集群http://master:8080

从页面上可以看到Work节点及其信息

此时，进入Spark的bin目录，使用spark-shell控制台

此时我们进入了Spark的shell环境，根据输出的信息，我们可以通过“http://master:4040” 从Web的角度看一下SparkUI的情况，如下图所示：

当然，你也可以查看一些其它的信息，例如Environment:

同时，我们也可以看一下Executors：

至此，我们的Spark集群搭建成功。

时间： 2024-12-09 00:13:33

7.基于yarn的Spark集群搭建的相关文章

Spark3000门徒第六课精通Spark集群搭建总结

今晚听了王家林老师的第六课精通Spark集群搭建和测试,课后作业是:搭建自己的spark环境并成功运行pi,我的总结如下: 1 硬件环境: 至少8GB内存,推荐金士顿内存,虚拟机推荐Ubuntu kylin版本,可以安装各种办公软件包括搜狗输入法.上网方式:Nat,root权限登录,避免权限问题 2.软件环境: RedHat 6.4 spark 1.6.0 hadoop 2.6.0 scala 2.11.8 3 /etc/hosts ip-hostname对应关系 spark.even

从0开始搭建基于Zookeeper的Spark集群

完全从0搭建Spark集群备注:这个步骤,只适合用root来搭建,正式环境下应该要有权限类的东西后面另外再进行实验写教程 1.安装各个软件,设置环境变量(每种软件需自己单独下载) export JAVA_HOME=/usr/java/jdk1.8.0_71 export JAVA_BIN=/usr/java/jdk1.8.0_71/bin export PATH=$JAVA_HOME/bin:$PATH export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAV

spark集群搭建整理之解决亿级人群标签问题

最近在做一个人群标签的项目,也就是根据客户的一些交易行为自动给客户打标签,而这些标签更有利于我们做商品推荐,目前打上标签的数据已达5亿+, 用户量大概1亿+,项目需求就是根据各种组合条件寻找标签和人群信息. 举个例子: 集合A: ( 购买过“牙膏“的人交易金额在10-500元并且交易次数在5次的客户并且平均订单价在20 -200元) . 集合B: (购买过“牙刷”的人交易金额在5-50 并且交易次数在3次的客户并且平均订单价在10-30元). 求:<1> 获取集合A 交集合B 客户数

Spark集群搭建与测试(DT大数据梦工厂)

Spark流行的两种文件存储方式:1.Hadoop的HDFS:2.H3云存储 tux yarn +HDFS是未来3.5年的趋势看你用的是bash,可能ubuntu里的bash不会自动source /etc/profile,所以你将那条export命令放在~/.bashrc里试试计算的集群和数据存储的集群不在同一个集群上的话,性能不高不可接受,tux yarn解决了这个问题,它用JAVA写的 ubuntu 设置root登录见http://jingyan.baidu.com/article/1

Tomcat：基于Apache+Tomcat的集群搭建

根据Tomcat的官方文档说明可以知道,使用Tomcat配置集群需要与其它Web Server配合使用才可以完成,典型的有Apache和IIS. 这里就使用Apache+Tomcat方式来完成基于Tomcat在集群配置. 软件准备 1)Apache HTTP Server: 使用百度搜索httpd-2.2.25-win32-x86-no_ssl.msi,应该可以找到很多相关的下载链接.这里也提供一个:http://vdisk.weibo.com/s/C3trk_uGGkrmc 2)Tomcat

spark集群搭建

Spark集群环境搭建 2015年09月27日中秋节,祝中秋快乐团圆 1安装jdk 略 2安装scala 在http://www.scala-lang.org scala官网下载安装包,这里以scala-2.11.7为例: 1)下载scala-2.11.7.tgz 2)在目录下解压缩: tar -xzvf scala-2.11.7.tgz 3)配置环境变量,在/etc/profile中添加以下的内容: export SCALA_HOME=实际安装路径 export PATH=${SCALA_HO

大数据：spark集群搭建

创建spark用户组,组ID1000 groupadd -g 1000 spark 在spark用户组下创建用户ID 2000的spark用户获取视频中文档资料及完整视频的伙伴请加QQ群:947967114useradd -u 2000 -g spark spark 设置密码 passwd spark 修改sudo权限 chmod u+w /etc/sudoers vi /etc/sudoers 找到 root ALL=(ALL) ALL 添加 spark ALL=(ALL) ALL 创建一个

spark学习笔记-spark集群搭建（7）

安装spark包 1 1.将spark-1.3.0-bin-hadoop2.4.tgz使用WinSCP上传到/usr/local目录下. 2 2.解压缩spark包:tar zxvf spark-1.3.0-bin-hadoop2.4.tgz. 3 3.更改spark目录名:mv spark-1.3.0-bin-hadoop2.4 spark 4 4.设置spark环境变量 5 vi .bashrc 6 export SPARK_HOME=/usr/local/spark 7 export PA

【Spark-core学习之三】 Spark集群搭建

环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 组建方案:master:PCS101,slave:PCS102.PCS103 搭建方式一:Standalone 步骤一:解压文件改名 [[email protected] src]# tar -zxvf spark-1.6.0-bin-hadoop2.6.tgz -C /usr/loca