大数据：spark集群搭建

创建spark用户组，组ID1000

groupadd -g 1000 spark

在spark用户组下创建用户ID 2000的spark用户获取视频中文档资料及完整视频的伙伴请加QQ群：947967114
useradd -u 2000 -g spark spark

设置密码

passwd spark

修改sudo权限

chmod u+w /etc/sudoers

vi /etc/sudoers

找到

root ALL=(ALL) ALL

添加

spark ALL=(ALL) ALL

创建一个app目录用来存放spark的软件环境（jdk、scala、spark）

mkdir /app

修改这个文件的属组和属主

chown -R spark:spark /app

创建soft

mkdir /app/soft

创建spark

mkdir /app/spark

创建/spark/work

mkdir -p /home/spark/work

改变/spark/work属组和属主

chown -R spark:spark /home/spark/work

切换用户

su root

解压JDK

cd /tmp/

tar zxvf jdk-8u192-linux-x64.tar.gz -C /app/soft/

如果没有权限首先使用chmod 777 -R /tmp修改权限

cd /app/soft/

ll -a

配置/etc/profile

sudo vi /etc/profile，所有需要的配置都添加了

JAVA_HOME=/app/soft/jdk1.8.0_192

PATH=$JAVA_HOME/bin:$PATH:$HOME/bin

export PATH

让配置生效获取视频中文档资料及完整视频的伙伴请加QQ群：947967114
source /etc/profile

安装scala：

tar zxvf /tmp/scala-2.11.12.tgz -C /app/soft/

配置环境变量

sudo vi /etc/profile

JAVA_HOME=/app/soft/jdk1.8.0_192

SCALA_HOME=/app/soft/scala-2.11.12/

PATH=$JAVA_HOME/bin:$PATH:$HOME/bin:$SCALA_HOME/bin

export PATH

配置ssh无秘登录

ssh-keygen -t rsa

cd ~/

cd .ssh/

修改公钥的名字

master节点：mv id_rsa.pub authorized_keys_master.pub

slave1节点：mv id_rsa.pub authorized_keys_slave1.pub

slave2节点：mv id_rsa.pub authorized_keys_slave2.pub

把slave1和slave2的公钥给master

slave1节点：scp authorized_keys_slave1.pub [email protected]:/home/spark/.ssh/

slave2节点：scp authorized_keys_slave2.pub [email protected]:/home/spark/.ssh/

把三个节点的公钥都写在一个文件中

cat authorized_keys_master.pub >> authorized_keys

cat authorized_keys_slave1.pub >> authorized_keys

cat authorized_keys_slave2.pub >> authorized_keys

查看一下总的公钥文件

vi authorized_keys

把总的公钥文件authorized_keys给到slave1和slave2节点

scp authorized_keys [email protected]:/home/spark/.ssh

修改authorized_keys的操作权限，三个节点都需要修改

chmod 400 authorized_keys

验证免密登录是否成功

ssh master

ssh slave1

ssh slave2

ssh master

安装spark：

tar -zxf /tmp/spark-2.1.0-bin-hadoop2.6.gz -C /app/spark/

cd /app/spark/

cd spark-2.1.0-bin-hadoop2.6/

配置环境变量：

vi /etc/profile

JAVA_HOME=/app/soft/jdk1.8.0_192

SCALA_HOME=/app/soft/scala-2.11.12/

SPARK_HOME=/app/spark/spark-2.1.0-bin-hadoop2.6

PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$JAVA_HOME/bin:$PATH:$HOME/bin:$SCALA_HOME/bin

export PATH

配置spark的核心文件：

cd spark-2.1.0-bin-hadoop2.6/

cd conf/

配置slaves

mv slaves.template slaves

vi slaves 添加三个节点

master

slave1

slave2

配置spark-env.sh

cp spark-env.sh.template spark-env.sh

vi spark-env.sh

export JAVA_HOME=/app/soft/jdk1.8.0_192

export SCALA_HOME=/app/soft/scala-2.11.12

export SPARK_MASTER_IP=master

export SPARK_MASTER_PORT=7077

export SPARK_EXECUTOR_INSTANCES=1

export SPARK_WORKER_INSTANCES=1

export SPARK_WORKER_CORES=1

export SPARK_WORKER_MEMORY=1024M

export SPARK_MASTER_WEBUI=8080

export SPARK_CONF_DIR=/app/spark/spark-2.1.0-bin-hadoop2.6/conf/

把所有的节点的app的work和soft权限都改成777：在所有的节点上执行 chmod 777 -R /app/soft 和chmod 777 -R /app/spark

scp -r /app/spark/ [email protected]:/app/

scp -r /app/soft/ [email protected]:/app/

到此spark集群已经搭建完成：

开启：start-all.sh获取视频中文档资料及完整视频的伙伴请加QQ群：947967114
jps可以看到如下进程：

master节点：

3617 Worker

3507 Master

4156 Jps

slave1节点：

3361 Worker

3702 Jps

slave2节点：

3319 Worker

3647 Jps

开启spark-shell验证：

spark-shell --master spark://master:7077 --executor-memory 1024m --driver-memory 1024m

启动之后会显示如下内容：

18/11/29 16:13:46 WARN ObjectStore: Failed to get database default, returning NoSuchObjectException

18/11/29 16:13:47 WARN ObjectStore: Failed to get database global_temp, returning NoSuchObjectException

Spark context Web UI available at http://192.168.0.10:4040

Spark context available as ‘sc‘ (master = spark://master:7077, app id = app-20181129161336-0000).

Spark session available as ‘spark‘.

Welcome to

  ____              __

 / __/__  ___ _____/ /__

_\ \/ _ \/ _ `/ __/  ‘_/

// ./_,// //_\ version 2.1.0

/_/

Using Scala version 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_192)

Type in expressions to have them evaluated.

Type :help for more information.

scala>

就可以在>后面书写spark代码了：

g NoSuchObjectException

Spark context Web UI available at http://192.168.0.10:4040

Spark context available as ‘sc‘ (master = spark://master:7077, app id = app-20181129161336-0000).

Spark session available as ‘spark‘.

Welcome to

  ____              __

 / __/__  ___ _____/ /__

_\ \/ _ \/ _ `/ __/  ‘_/

// ./_,// //_\ version 2.1.0

/_/

Using Scala version 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_192)

Type in expressions to have them evaluated.

Type :help for more information.

scala> sc.textFile("/app/spark/spark-2.1.0-bin-hadoop2.6/README.md").flatMap(.split(" ")).map(x=>(x,1)).reduceByKey(+_).map(x=>(x._2,x._1)).sortByKey(false).map(x=>(x._2,x._1)).take(10)

res0: Array[(String, Int)] = Array(("",71), (the,24), (to,17), (Spark,16), (for,12), (and,9), (##,8), (a,8), (can,7), (run,7))

scala>获取视频中文档资料及完整视频的伙伴请加QQ群：947967114

原文地址：http://blog.51cto.com/14043271/2324690

时间： 2024-12-08 11:18:28

大数据：spark集群搭建的相关文章

大数据-HDFS 集群搭建的配置文件

1.HDFS简单版集群搭建相关配置文件 1.core-site.xml文件 1 <property> 2 <name>fs.defaultFS</name> 3 <value>hdfs://hadoop2:9000</value> 4 </property> 5 6 <property> 7 <name>hadoop.tmp.dir</name> 8 <value>/usr/hadoop

今晚听了王家林老师的第六课精通Spark集群搭建和测试,课后作业是:搭建自己的spark环境并成功运行pi,我的总结如下: 1 硬件环境: 至少8GB内存,推荐金士顿内存,虚拟机推荐Ubuntu kylin版本,可以安装各种办公软件包括搜狗输入法.上网方式:Nat,root权限登录,避免权限问题 2.软件环境: RedHat 6.4 spark 1.6.0 hadoop 2.6.0 scala 2.11.8 3 /etc/hosts ip-hostname对应关系 spark.even

7.基于yarn的Spark集群搭建

构造分布式的Spark1.0.2集群下载Scala 2.10.4,具体下载地址: http://www.scala-lang.org/download/2.10.4.html 在Ubuntu机器上Scala会帮助我们自动选择“scala-2.10.4.tgz”进行下载: 安装和配置Scala 我们需要在master.slave1以及slave2上分别安装Scala 安装Scala 将Scala安装包拷贝到各台机器上解压新建目录/usr/lib/scala 将上述解压之后的文件夹scala-

Spark集群搭建与测试(DT大数据梦工厂)

Spark流行的两种文件存储方式:1.Hadoop的HDFS:2.H3云存储 tux yarn +HDFS是未来3.5年的趋势看你用的是bash,可能ubuntu里的bash不会自动source /etc/profile,所以你将那条export命令放在~/.bashrc里试试计算的集群和数据存储的集群不在同一个集群上的话,性能不高不可接受,tux yarn解决了这个问题,它用JAVA写的 ubuntu 设置root登录见http://jingyan.baidu.com/article/1

大数据——Hadoop集群坏境CentOS安装

前言前面我们主要分析了搭建Hadoop集群所需要准备的内容和一些提前规划好的项,本篇我们主要来分析如何安装CentOS操作系统,以及一些基础的设置,闲言少叙,我们进入本篇的正题. 技术准备 VMware虚拟机.CentOS 6.8 64 bit 安装流程因为我的笔记本是Window7操作系统,然后内存配置,只有8G,内存配置太低了,当然为了演示,我会将Hadoop集群中的主节点分配2GB内存,然后剩余的三个节点都是1GB配置. 所有的节点存储我都设置为50GB. 在安装操作系统之前,我们需要

spark集群搭建整理之解决亿级人群标签问题

最近在做一个人群标签的项目,也就是根据客户的一些交易行为自动给客户打标签,而这些标签更有利于我们做商品推荐,目前打上标签的数据已达5亿+, 用户量大概1亿+,项目需求就是根据各种组合条件寻找标签和人群信息. 举个例子: 集合A: ( 购买过“牙膏“的人交易金额在10-500元并且交易次数在5次的客户并且平均订单价在20 -200元) . 集合B: (购买过“牙刷”的人交易金额在5-50 并且交易次数在3次的客户并且平均订单价在10-30元). 求:<1> 获取集合A 交集合B 客户数

spark集群搭建

Spark集群环境搭建 2015年09月27日中秋节,祝中秋快乐团圆 1安装jdk 略 2安装scala 在http://www.scala-lang.org scala官网下载安装包,这里以scala-2.11.7为例: 1)下载scala-2.11.7.tgz 2)在目录下解压缩: tar -xzvf scala-2.11.7.tgz 3)配置环境变量,在/etc/profile中添加以下的内容: export SCALA_HOME=实际安装路径 export PATH=${SCALA_HO

spark学习笔记-spark集群搭建（7）

安装spark包 1 1.将spark-1.3.0-bin-hadoop2.4.tgz使用WinSCP上传到/usr/local目录下. 2 2.解压缩spark包:tar zxvf spark-1.3.0-bin-hadoop2.4.tgz. 3 3.更改spark目录名:mv spark-1.3.0-bin-hadoop2.4 spark 4 4.设置spark环境变量 5 vi .bashrc 6 export SPARK_HOME=/usr/local/spark 7 export PA

大数据 -- Hadoop集群环境搭建

首先我们来认识一下HDFS, HDFS(Hadoop Distributed File System )Hadoop分布式文件系统.它其实是将一个大文件分成若干块保存在不同服务器的多个节点中.通过联网让用户感觉像是在本地一样查看文件,为了降低文件丢失造成的错误,它会为每个小文件复制多个副本(默认为三个),以此来实现多机器上的多用户分享文件和存储空间. Hadoop主要包含三个模块: HDFS模块:HDFS负责大数据的存储,通过将大文件分块后进行分布式存储方式,突破了服务器硬盘大小的限制,解决了单