spark 集群搭建

1. 解压spark安装包, 重命名(版本使用: hadoop-2.7.1.tar.gz   +   spark-2.3.0-bin-hadoop2.7.tgz)
2. 进入  /home/spark/spark-2.2.0/conf  目录3. cp slaves.template slaves  

4. vim slaves    将结尾的 localhost(伪分布式)   修改成自己的work节点,   比如  hadoop2  hadoop3(每行一条),   保存退出

5. cp spark-env.sh.template spark-env.sh  vim spark-env.sh   添加:

  export JAVA_HOME=/usr/java/jdk1.8.0_11
  export SPARK_MASTER_IP=hadoop1
  export SPARK_MASTER_HOST=hadoop1
  export SPARK_MASTER_PORT=7077
  export SPARK_WORKER_CORES=2 电脑支持超线程的话, 就回支持 原核数*2 个线程, 当前电脑1个cpu, 所以支持2个cores

  export SPARK_WORKER_MEMORY=2G

6. scp -r spark-2.2.0 [email protected]:/home/spark   将spark整体拷贝到其他节点机器上

7. 在 master 节点机器上,  进入spark下的sbin 目录中执行  ./start-all.sh   各个节点上执行:   jps  master节点上出现   Master 进程  slave 节点上出现   Worker 进程

8. 8080端口为spark 的 web 监控端口,   7070为spark 的 数据传输端口9. http://hadoop1:8080    可以看到spark管理界面10. spark在 Standalone 上运行分为俩种模式  1.client    Driver 进程是在客户端启动的    Driver 的作用是:      分发任务      回收 task 计算结果      回收 task 执行情况      心跳    可以在提交应用程序的客户端上监控task的执行情况    适用场景:  调试/测试环境(应为会占用网卡流量)  2.cluster    Driver 进程是在集群某一台 Worker 上启动的,    无法查看 task 的启动执行情况    适用场景: 生产环境执行命令   1000 表示启动1000个线程来执行任务./spark-submit --master spark://hadoop1:7077 --class org.apache.spark.examples.SparkPi ../examples/jars/spark-examples_2.11-2.3.0.jar 1000
 

  

原文地址:https://www.cnblogs.com/redhat0019/p/8797044.html

时间: 2024-10-23 00:04:33

spark 集群搭建的相关文章

Spark3000门徒第六课精通Spark集群搭建总结

今晚听了王家林老师的第六课精通Spark集群搭建和测试,课后作业是:搭建自己的spark环境并成功运行pi,我的总结如下: 1 硬件环境: 至少8GB内存,推荐金士顿内存,虚拟机推荐Ubuntu kylin版本,可以安装各种办公软件包括搜狗输入法.上网方式:Nat,root权限登录,避免权限问题 2.软件环境: RedHat 6.4  spark 1.6.0   hadoop 2.6.0   scala 2.11.8 3 /etc/hosts ip-hostname对应关系 spark.even

7.基于yarn的Spark集群搭建

构造分布式的Spark1.0.2集群 下载Scala 2.10.4,具体下载地址: http://www.scala-lang.org/download/2.10.4.html 在Ubuntu机器上Scala会帮助我们自动选择“scala-2.10.4.tgz”进行下载: 安装和配置Scala 我们需要在master.slave1以及slave2上分别安装Scala 安装Scala 将Scala安装包拷贝到各台机器上 解压 新建目录/usr/lib/scala 将上述解压之后的文件夹scala-

spark集群搭建

Spark集群环境搭建 2015年09月27日中秋节,祝中秋快乐团圆 1安装jdk 略 2安装scala 在http://www.scala-lang.org scala官网下载安装包,这里以scala-2.11.7为例: 1)下载scala-2.11.7.tgz 2)在目录下解压缩: tar -xzvf scala-2.11.7.tgz 3)配置环境变量,在/etc/profile中添加以下的内容: export SCALA_HOME=实际安装路径 export PATH=${SCALA_HO

spark集群搭建整理之解决亿级人群标签问题

最近在做一个人群标签的项目,也就是根据客户的一些交易行为自动给客户打标签,而这些标签更有利于我们做商品推荐,目前打上标签的数据已达5亿+, 用户量大概1亿+,项目需求就是根据各种组合条件寻找标签和人群信息. 举个例子: 集合A: ( 购买过“牙膏“的人交易金额在10-500元并且交易次数在5次的客户并且平均订单价在20 -200元)  . 集合B: (购买过“牙刷”的人交易金额在5-50 并且交易次数在3次的客户并且平均订单价在10-30元). 求:<1>  获取集合A  交 集合B 客户数

大数据:spark集群搭建

创建spark用户组,组ID1000 groupadd -g 1000 spark 在spark用户组下创建用户ID 2000的spark用户 获取视频中文档资料及完整视频的伙伴请加QQ群:947967114useradd -u 2000 -g spark spark 设置密码 passwd spark 修改sudo权限 chmod u+w /etc/sudoers vi /etc/sudoers 找到 root ALL=(ALL) ALL 添加 spark ALL=(ALL) ALL 创建一个

Spark集群搭建与测试(DT大数据梦工厂)

Spark流行的两种文件存储方式:1.Hadoop的HDFS:2.H3云存储 tux yarn  +HDFS是未来3.5年的趋势 看你用的是bash,可能ubuntu里的bash不会自动source /etc/profile,所以你将那条export命令放在~/.bashrc里试试 计算的集群和数据存储的集群不在同一个集群上的话,性能不高不可接受,tux yarn解决了这个问题,它用JAVA写的 ubuntu 设置root登录见http://jingyan.baidu.com/article/1

spark学习笔记-spark集群搭建(7)

安装spark包 1 1.将spark-1.3.0-bin-hadoop2.4.tgz使用WinSCP上传到/usr/local目录下. 2 2.解压缩spark包:tar zxvf spark-1.3.0-bin-hadoop2.4.tgz. 3 3.更改spark目录名:mv spark-1.3.0-bin-hadoop2.4 spark 4 4.设置spark环境变量 5 vi .bashrc 6 export SPARK_HOME=/usr/local/spark 7 export PA

【Spark-core学习之三】 Spark集群搭建

环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 组建方案:master:PCS101,slave:PCS102.PCS103 搭建方式一:Standalone 步骤一:解压文件 改名 [[email protected] src]# tar -zxvf spark-1.6.0-bin-hadoop2.6.tgz -C /usr/loca

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第五步)(11)

此时我们进入了Spark的shell世界,根据输出的提示信息,我们可以通过“http://SparkMaster:4040” 从Web的角度看一下SparkUI的情况,如下图所示: 当然,你也可以查看一些其它的信息,例如Environment: 同时,我们也可以看一下Executors: 至此,我们 的Spark集群搭建成功,Congratulations!