spark集群搭建

Spark集群环境搭建

2015年09月27日中秋节，祝中秋快乐团圆

1安装jdk

略

2安装scala

在http://www.scala-lang.org scala官网下载安装包，这里以scala-2.11.7为例：

1）下载scala-2.11.7.tgz

2）在目录下解压缩：

tar -xzvf scala-2.11.7.tgz

3）配置环境变量，在/etc/profile中添加以下的内容：

export SCALA_HOME=实际安装路径

export PATH=${SCALA_HOME}/bin:PATH

4) 使profile立即生效

Source /etc/profile

3配置SSH免密码登陆

略

4安装hadoop

略

5安装spark

下载 spark-1.0.0-bin-hadoop2.tgz

解压 tar -xzvf spark-1.0.0-bin-hadoop2.tgz

配置conf/spark-env.sh文件

export JAVA_HOME=/home/spark/jdk1.7.0_45

export SCALA_HOME=/usr/etc/scala/scala-2.11.7

export SPARK_WORKER_MEMORY=2g

export MASTER=spark://192.168.217.140:7077

export SPARK_MASTER_IP=192.168.217.140

所有红色配置以实际安装路径为准

6启动集群

./sbin/start-all.sh

7测试

sh spark-submit --master spark://192.168.217.140:7077 --class org.apache.spark.examples.SparkPi --name Spark-Pi --executor-memory 400M --driver-memory 512M /usr/etc/spark/spark-1.0.0-bin-hadoop2/lib/spark-examples-1.0.0-hadoop2.2.0.jar

Master（红色）用主机名的时候怎么都不行，换成master的ip地址就行了

时间： 2025-01-02 16:30:38

spark集群搭建的相关文章

Spark3000门徒第六课精通Spark集群搭建总结

今晚听了王家林老师的第六课精通Spark集群搭建和测试,课后作业是:搭建自己的spark环境并成功运行pi,我的总结如下: 1 硬件环境: 至少8GB内存,推荐金士顿内存,虚拟机推荐Ubuntu kylin版本,可以安装各种办公软件包括搜狗输入法.上网方式:Nat,root权限登录,避免权限问题 2.软件环境: RedHat 6.4 spark 1.6.0 hadoop 2.6.0 scala 2.11.8 3 /etc/hosts ip-hostname对应关系 spark.even

7.基于yarn的Spark集群搭建

构造分布式的Spark1.0.2集群下载Scala 2.10.4,具体下载地址: http://www.scala-lang.org/download/2.10.4.html 在Ubuntu机器上Scala会帮助我们自动选择“scala-2.10.4.tgz”进行下载: 安装和配置Scala 我们需要在master.slave1以及slave2上分别安装Scala 安装Scala 将Scala安装包拷贝到各台机器上解压新建目录/usr/lib/scala 将上述解压之后的文件夹scala-

spark集群搭建整理之解决亿级人群标签问题

最近在做一个人群标签的项目,也就是根据客户的一些交易行为自动给客户打标签,而这些标签更有利于我们做商品推荐,目前打上标签的数据已达5亿+, 用户量大概1亿+,项目需求就是根据各种组合条件寻找标签和人群信息. 举个例子: 集合A: ( 购买过“牙膏“的人交易金额在10-500元并且交易次数在5次的客户并且平均订单价在20 -200元) . 集合B: (购买过“牙刷”的人交易金额在5-50 并且交易次数在3次的客户并且平均订单价在10-30元). 求:<1> 获取集合A 交集合B 客户数

大数据：spark集群搭建

创建spark用户组,组ID1000 groupadd -g 1000 spark 在spark用户组下创建用户ID 2000的spark用户获取视频中文档资料及完整视频的伙伴请加QQ群:947967114useradd -u 2000 -g spark spark 设置密码 passwd spark 修改sudo权限 chmod u+w /etc/sudoers vi /etc/sudoers 找到 root ALL=(ALL) ALL 添加 spark ALL=(ALL) ALL 创建一个

Spark集群搭建与测试(DT大数据梦工厂)

Spark流行的两种文件存储方式:1.Hadoop的HDFS:2.H3云存储 tux yarn +HDFS是未来3.5年的趋势看你用的是bash,可能ubuntu里的bash不会自动source /etc/profile,所以你将那条export命令放在~/.bashrc里试试计算的集群和数据存储的集群不在同一个集群上的话,性能不高不可接受,tux yarn解决了这个问题,它用JAVA写的 ubuntu 设置root登录见http://jingyan.baidu.com/article/1

spark学习笔记-spark集群搭建（7）

安装spark包 1 1.将spark-1.3.0-bin-hadoop2.4.tgz使用WinSCP上传到/usr/local目录下. 2 2.解压缩spark包:tar zxvf spark-1.3.0-bin-hadoop2.4.tgz. 3 3.更改spark目录名:mv spark-1.3.0-bin-hadoop2.4 spark 4 4.设置spark环境变量 5 vi .bashrc 6 export SPARK_HOME=/usr/local/spark 7 export PA

【Spark-core学习之三】 Spark集群搭建

环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 组建方案:master:PCS101,slave:PCS102.PCS103 搭建方式一:Standalone 步骤一:解压文件改名 [[email protected] src]# tar -zxvf spark-1.6.0-bin-hadoop2.6.tgz -C /usr/loca

spark 集群搭建

1. 解压spark安装包, 重命名(版本使用: hadoop-2.7.1.tar.gz + spark-2.3.0-bin-hadoop2.7.tgz) 2. 进入 /home/spark/spark-2.2.0/conf 目录3. cp slaves.template slaves 4. vim slaves 将结尾的 localhost(伪分布式) 修改成自己的work节点, 比如 hadoop2 hadoop3(每行一条), 保存退出 5. cp spark-env.sh.templat

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第五步）(11)

此时我们进入了Spark的shell世界,根据输出的提示信息,我们可以通过“http://SparkMaster:4040” 从Web的角度看一下SparkUI的情况,如下图所示: 当然,你也可以查看一些其它的信息,例如Environment: 同时,我们也可以看一下Executors: 至此,我们的Spark集群搭建成功,Congratulations!