CentOS7+hadoop2.6.4+spark-1.6.1

环境：

CentOS7

hadoop2.6.4已安装两个节点：master、slave1

过程：

把下载的scala、spark压缩包拷贝到/usr/hadoop-2.6.4/thirdparty目录下。

安装scala：

$ sudo tar -zxvf scala-2.11.8.tgz

修改环境变量文件 /etc/profile，添加以下内容：

export SCALA_HOME=/usr/hadoop-2.6.4/thirdparty/scala-2.11.8
export PATH=$PATH:$SCALA_HOME/bin

source 使之生效

$ source /etc/profile

验证 Scala 安装

slave1参照 master 机器安装步骤进行安装。

Spark 安装：

解压

$ sudo tar -zxvf spark-1.6.1-bin-hadoop2.6.tgz

修改环境变量文件 /etc/profile, 添加以下内容

export SPARK_HOME=/usr/hadoop-2.6.4/thirdparty/spark-1.6.1-bin-hadoop2.6
export PATH=$PATH:$SPARK_HOME/bin

source 使之生效

$ source /etc/profile

Spark 配置

进入 Spark 安装目录下的 conf 目录，拷贝 spark-env.sh.template 到 spark-env.sh

$ cp spark-env.sh.template spark-env.sh

在其中添加以下配置信息：

export SCALA_HOME=/usr/hadoop-2.6.4/thirdparty/scala-2.10.4
export JAVA_HOME=/usr/java/jdk1.8.0_101
export HADOOP_HOME=/usr/hadoop-2.6.4
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export SPARK_MASTER_IP=192.168.23.101
export SPARK_LOCAL_DIRS=/usr/hadoop-2.6.4/thirdparty/spark-1.6.1-bin-hadoop2.6
export SPARK_WORKER_MEMORY=512m

JAVA_HOME 指定 Java 安装目录；
SCALA_HOME 指定 Scala 安装目录；
SPARK_MASTER_IP 指定 Spark 集群 Master 节点的 IP 地址；
SPARK_WORKER_MEMORY 指定的是 Worker 节点能够分配给 Executors 的最大内存大小；
HADOOP_CONF_DIR 指定 Hadoop 集群配置文件目录。
SPARK_WORKER_MEMORY 根据主机内存设置spark运行内存大小。

slaves

将 slaves.template 拷贝到 slaves

$ sudo cp slaves.template slaves

编辑其内容为

master
slave1

设置spark安装目录的所有组/用户：

$ sudo chown -R hadoop:hadoop spark-1.6.1-bin-hadoop2.6

slave1参照 master 机器安装步骤进行安装。

启动 Spark 集群

启动 Hadoop 集群

$ start-dfs.sh

启动 Spark 集群

启动 Master 节点

运行 $SPARK_HOME/sbin 下面， start-master.sh

jps查看进程，多了一个Master进程

启动所有 Worker 节点

运行 $SPARK_HOME/sbin 下面，start-slaves.sh

jps查看进程，可以发现多了一个Work进程。

（由于虚拟机性能较差，因此后续步骤未实际验证，仅供参考）

运行 spark-shell，可以进入 Spark 的 shell 控制台

浏览器访问 SparkUI

可以从 SparkUI 上查看一些如环境变量、Job、Executor等信息。
至此，整个 Spark 分布式集群的搭建就到这里结束。

停止 Spark 集群

停止 Master 节点

运行$SPARK_HOME/sbin，下面的stop-master.sh 来停止 Master 节点。

停止 Slaves 节点

运行$SPARK_HOME/sbin，下面的stop-slaves.sh （注意是stop-slavers 有s）可以停止所有的 Worker 节点

最后再停止 Hadoop 集群。

原文地址：http://blog.csdn.net/sa14023053/article/details/51953836

时间： 2024-10-20 05:31:18

CentOS7+hadoop2.6.4+spark-1.6.1的相关文章

Linux上安装Hadoop集群(CentOS7+hadoop-2.8.0)

1下载hadoop 2安装3个虚拟机并实现ssh免密码登录 2.1安装3个机器 2.2检查机器名称 2.3修改/etc/hosts文件 2.4 给3个机器生成秘钥文件 2.5 在hserver1上创建authorized_keys文件 2.6将authorized_keys文件复制到其他机器 2.7 测试使用ssh进行无密码登录 2.7.1在hserver1上进行测试 2.7.2在hserver2上进行测试 2.7.3在hserver3上进行测试 3安装jdk和hadoop 3.1安装JDK 3

CentOS7+Hadoop2.7.2(HA高可用+Federation联邦)+Hive1.2.1+Spark2.1.0 完全分布式集群安装

1 VM网络配置... 3 2 CentOS配置... 5 2.1 下载地址... 5 2.2 激活网卡... 5 2.3 SecureCRT. 5 2.4 修改主机名... 6 2.5 yum代理上网... 7 2.6 安装ifconfig. 8 2.7 wget安装与代理... 8 2.8

Hadoop2.0/YARN深入浅出(Hadoop2.0、Spark、Storm和Tez)

随着云计算.大数据迅速发展,亟需用hadoop解决大数据量高并发访问的瓶颈.谷歌.淘宝.百度.京东等底层都应用hadoop.越来越多的企业急需引入hadoop技术人才.由于掌握Hadoop技术的开发人员并不多,直接导致了这几年hadoop技术的薪水远高于JavaEE及 Android程序员. Hadoop入门薪资已经达到了 8K 以上,工作1年可达到 1.2W 以上,具有2-3年工作经验的hadoop人才年薪可以达到 30万—50万 . 一般需要大数据处理的公司基本上都是大公司,所以学习had

centos7中基于hadoop安装hive(CentOS7+hadoop2.8.0+hive2.1.1)

1下载hive 下载地址:http://hive.apache.org/downloads.html 点击上图的Download release now! 如图: 点击上图的某个下载地址,我点击的是国内的这个地址:http://mirror.bit.edu.cn/apache/hive/ 如图: 点击进入: apache-hive-2.1.1-bin.tar.gz 2安装 2.1上载和解压缩在opt目录下新建一个名为hive的目录,将apache-hive-2.1.1-bin.tar.gz拷贝

Centos7+hadoop2.7.3+jdk1.8

修改主机名 1. 修改主机名 vi /etc/sysconfig/network ,改为 master , slave1 , slave2 2. source /etc/sysconfig/network 让刚才的设置生效 3. 如果不行需要 reboot 4. 在master主机上输入命令:vi /etc/hosts,添加ip地址和主机名设置host 5. 将修改后的host文件发送到其他主机,进行远程拷贝 scp /etc/h

centos7 hadoop2.7.7 分布式环境搭建

一.安装准备(完整版带图片的找 [email protected]) 1.IP配置打开终端输入ifconfig查看网卡配置名字为 ens33 所以为本机为ifcfg-ens33(各个版本系统的名字不一样) 在ROOT下通过vim /etc/sysconfig/network-scripts/ifcfg-ens33进入界面再通过 I 进行文件修改将BOOTROTO 修改为 static (静态获取ip) 再添加网关,子网掩码,和dns解析服务器(有没有都行)和静态ip 在

CentOS7搭建hadoop2.6.4+HBase1.1.6

环境: CentOS7 hadoop2.6.4两个节点:master.slave1 HBase1.1.6 过程: hadoop安装目录:/usr/hadoop-2.6.4 master节点,hadoop用户登录.在hadoop目录下新建thirdparty目录: $ mkdir thirdparty 目录结构: 把hbase1.1.6解压到thirdparty目录下: $ cp ~/hbase-1.1.6-bin.tar.gz thirdparty $ cd thirdparty $ tar z

02 使用spark进行词频统计【scala交互】

我们已经在CentOS7中安装了spark,本节将展示如何在spark中通过scala方式交互的进行词频统计. 1 系统.软件以及前提约束 CentOS 7 64 工作站作者的机子ip是192.168.100.200,主机名为danji,请读者根据自己实际情况设置 hadoop已经安装完毕并启动 https://www.jianshu.com/p/b7ae3b51e559 spark已经安装完毕并启动 https://www.jianshu.com/p/8384ab76e8d4 为去除权限对操

ubuntu14.04中spark集群安装配置

一. Spark简介 Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发.Spark基于map reduce 算法模式实现的分布式计算,拥有Hadoop MapReduce所具有的优点:但不同于Hadoop MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,节省了磁盘IO耗时,性能比Hadoop更快. 所以,相对来说Hadoop更适合做批处理,而Spark更适合做需要反复迭代的机器学习.下面是我在ubuntu14.04中配置Spark