spark2.2.0伪分布式

环境:

  hadoop2.6.0

  jdk1.8

  ubuntu 14.04 64位

1 安装scala环境

版本是scala-2.10.6,官网下载地址http://www.scala-lang.org/download/

ps:这里最好用jdk1.8配合这个scala版本,不然可能会报错,不过我看有些大神的jdk1.7也没有报错,不过建议jdk1.8

然后配置scala的环境变量:sudo vim /etc/profile

export SCALA_HOME=/usr/scala/scala-2.10.6
export PATH=$PATH:$SCALA_HOME/bin

执行命令source /etc/profile 让环境变量生效

scala检测:在任意目录执行scala -version,结果如下:

2 spark配置

首先下载spark的压缩包,官网下载地址http://spark.apache.org/downloads.html

按照上图所示选取,然后下载spark-2.2.0-bin-hadoop2.6.tgz压缩包

解压到安装目录下,比如我是解压到/usr/local目录下,并且重命名为spark

进入spark/conf目录,把 spark-env.sh.template文件复制并且重命名为 spark-env.sh,并且在文件末尾加上如下配置

export JAVA_HOME=/usr/java/jdk1.8.0_141
export SCALA_HOME=/usr/scala/scala-2.10.6
export SPARK_MASTER_IP=master
export SPARK_WORKER_CORES=2
export SPARK_WORKER_MEMORY=1g
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop

其中export SPARK_MASTER_IP是指master的ip,由于我是伪分布式搭建,ip就是本机,而我在hosts中配置过本机ip为master

然后把 slaves.template文件复制重命名为slaves,文件的默认内容是localhost,把localhost删除,并添加内容master

(如果是完全分布式,就要把每个salve中的spark-env.sh文件中的SPARK_MASTER_IP参数改成master的ip,把master和每个slave上的slaves文件内容写成每一行一个slave的ip地址)

以上就完成了,然后进行再打开hadoop的dfs和yarn的服务后,再spark的目录下,执行sbin/start-all.sh,就启动spark进程了,然后执行jps查看,如下图,多了Master和Worker两个进程,就说明ok了。

时间: 2024-08-24 23:42:12

spark2.2.0伪分布式的相关文章

在Win7虚拟机下搭建Hadoop2.6.0伪分布式环境

近几年大数据越来越火热.由于工作需要以及个人兴趣,最近开始学习大数据相关技术.学习过程中的一些经验教训希望能通过博文沉淀下来,与网友分享讨论,作为个人备忘. 第一篇,在win7虚拟机下搭建hadoop2.6.0伪分布式环境. 1. 所需要的软件 使用Vmware 11.0搭建虚拟机,安装Ubuntu 14.04.2系统. Jdk 1.7.0_80 Hadoop 2.6.0 2. 安装vmware和ubuntu 略 3. 在ubuntu中安装JDK 将jdk解压缩到目录:/home/vm/tool

Hadoop2.7.3+Spark2.1.0完全分布式集群搭建过程

1.选取三台服务器(CentOS系统64位) 114.55.246.88 主节点 114.55.246.77 从节点 114.55.246.93 从节点 之后的操作如果是用普通用户操作的话也必须知道root用户的密码,因为有些操作是得用root用户操作.如果是用root用户操作的话就不存在以上问题. 我是用root用户操作的. 2.修改hosts文件 修改三台服务器的hosts文件. vi /etc/hosts 在原文件的基础最后面加上: 114.55.246.88 Master 114.55.

琐碎-hadoop2.2.0伪分布式和完全分布式安装(centos6.4)

环境是centos6.4-32,hadoop2.2.0 伪分布式文档:http://pan.baidu.com/s/1kTrAcWB 完全分布式文档:http://pan.baidu.com/s/1hqIeBGw 和1.x.0.x有些不同,特别是yarn.

hadoop2.2.0伪分布式搭建

一.准备linux环境 1.更改VMware适配器设置 由于是在单机环境下进行学习的,因此选择适配器模式是host-only模式,如果想要联网,可以选择桥接模式,配置的方式差不多. 点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段:192.168.85.0 子网掩码:255.255.255.0 -> apply -> ok 回到windows --> 打开网络

Hadoop新生报到(一) hadoop2.6.0伪分布式配置详解

首先先不看理论,搭建起环境之后再看: 搭建伪分布式是为了模拟环境,调试方便. 电脑是win10,用的虚拟机VMware Workstation 12 Pro,跑的Linux系统是centos6.5 ,装的hadoop2.6.0,jdk1.8: 1.准备工作 准备工作:把JDK和Hadoop安装包上传到linux系统(hadoop用户的根目录) 系统环境:IP:192.168.80.99, linux用户: root/123456,hadoop/123456 主机名:node 把防火墙关闭,roo

Hadoop2.2.0伪分布式搭建简述

简述了自己搭建Hadoop伪分布式的过程,方便以后查看参考. 环境:Vmware10+RedHat6.3+hadoop2.2.0+JDK1.7 Hadoop模式: 本地模式:只能其一个reduce和一个map,用于调试 伪分布式模式:通过一台机器模拟分布式,在学习时使用.验证逻辑是否正确 集群模式:工作的模式,有几百上千台机器. linux环境配 关闭防火墙 若是对外网提供的服务是绝对不能关闭防火墙的.而Hadoop一般是公司内部使用,有多台节点,且之间需要通信,此时若防火前将通信的端口屏蔽则无

CentOS7+Hadoop2.7.2(HA高可用+Federation联邦)+Hive1.2.1+Spark2.1.0 完全分布式集群安装

1       VM网络配置... 3 2       CentOS配置... 5 2.1             下载地址... 5 2.2             激活网卡... 5 2.3             SecureCRT. 5 2.4             修改主机名... 6 2.5             yum代理上网... 7 2.6             安装ifconfig. 8 2.7             wget安装与代理... 8 2.8       

Hadoop2.2.0伪分布式之MapReduce简介

一概念. mapReduce是分布式计算模型.注:在hadoop2.x中MapReduce运行在yarn上,yarn支持多种运算模型.storm.spark等等,任何运行在JVM上的程序都可以运行在yarn上. MR有两个阶段组成,Map和Reduce,用户只需要实现Map()和reduce()两个函数(且这两个函数的输入和输出均是key -value的形式)即可实现分布式计算.代码示例略. MapReduce设计框架: 在1.0中:,管理者:Job Tracker:被管理者:Task Trac

centos7.2+jdk7.9搭建haddoop2.7.0伪分布式环境(亲测成功)

最近想研究下hadoop,玩一玩大数据,废话不多说,就此开始! 所用环境:   xshell 5.0(ssh连接工具,支持ftp,可向虚拟机传文件) CentOS-7-x86_64-DVD-1511.iso(网上很多资源,可自行搜索)   hadoop-2.7.0.tar.gz(下载地址:http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.7.0/) jdk-7u79-linux-x64.tar.gz(下载地址:微盘地址http://