Spark 1.4.1 安装配置

各节点执行如下操作(或在一个节点上操作完后 scp 到其它节点):

1、 解压spark安装程序到程序目录/bigdata/soft/spark-1.4.1,约定此目录为$SPARK_HOME

        tar –zxvf spark-1.4-bin-hadoop2.6.tar.gz

2、 配置spark

  • 配置文件vi $SPARK_HOME /conf/spark-env.sh

###添加如下内容:

export JAVA_HOME=/bigdata/soft/jdk1.7.0_79

export SCALA_HOME=/bigdata/soft/scala-2.10.5

export HADOOP_CONF_DIR=/bigdata/soft/hadoop-2.6.0/etc/hadoop

export SPARK_MASTER_IP=cloud-001

#export SPARK_MASTER_PORT=7077

export SPARK_WORKER_MEMORY=1g

export SPARK_WORKER_CORES=1

export SPARK_WORKER_INSTANCES=1

export SPARK_CLASSPATH=$SPARK_CLASSPATH:/bigdata/soft/spark-1.4.1/lib/mysql-connector-java-5.1.31.jar

  • 配置vi $SPARK_HOME /conf/slaves

##根据集群节点设置slave节点

cloud-002

cloud-003

  • 配置vi $SPARK_HOME /conf/spark-defaults.conf

 ##先在hdfs上新建spark的日志目录

$Hadoop_HOME/bin/hadoop fs –mkdir /applogs

$Hadoop_HOME/bin/hadoop fs –mkdir /applogs/spark

 

##复制一个spark的配置文件

cp spark-defaults.conf.template spark-defaults.conf

##解注掉其中两行

spark.master                    spark://cloud-001:7077

spark.eventLog.enabled          true

spark.eventLog.dir               hdfs://cloud-001:8020/applogs/spark

 

  • 配置vi $SPARK_HOME /conf/hive-site.xml

###内容基本与hive的配置一致,详见如下:

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>

  <property>

    <name>javax.jdo.option.ConnectionURL</name>

    <value>jdbc:mysql://localhost:3306/hive_1_2_0?createDatabaseIfNotExist=true</value>

  </property>

  <property>

    <name>javax.jdo.option.ConnectionDriverName</name>

    <value>com.mysql.jdbc.Driver</value>

  </property>

  <property>

    <name>javax.jdo.PersistenceManagerFactoryClass</name>

    <value>org.datanucleus.api.jdo.JDOPersistenceManagerFactory</value>

  </property>

  <property>

    <name>javax.jdo.option.DetachAllOnCommit</name>

    <value>true</value>

  </property>

  <property>

    <name>javax.jdo.option.NonTransactionalRead</name>

    <value>true</value>

  </property>

  <property>

    <name>javax.jdo.option.ConnectionUserName</name>

    <value>root</value>

  </property>

  <property>

    <name>javax.jdo.option.ConnectionPassword</name>

    <value>0p;/9ol.</value>

  </property>

  <property>

    <name>javax.jdo.option.Multithreaded</name>

    <value>true</value>

  </property>

  <property>

    <name>datanucleus.connectionPoolingType</name>

    <value>BoneCP</value>

  </property>

  <property>

    <name>hive.metastore.warehouse.dir</name>

    <value>/user/hive/warehouse</value>

  </property>

  <property>

      <name>fs.default.name</name>

      <value>hdfs://cloud-001:8020</value>

  </property>

  <property>

    <name>hive.server2.thrift.port</name>

    <value>10000</value>

  </property>

  <property>

    <name>hive.server2.thrift.bind.host</name>

    <value>cloud-001</value>

  </property>

</configuration>

  • 复制一个mysql的jdbc驱动到$SPARK_HOME/lib

如cp $HIVE_HOME/lib/mysql-connector-java-5.1.31.jar $SPARK_HOME/lib

3、 standlone 模式启动集群

        启动master和worker:

                    $SPARK_HOME/sbin/start-all.sh

        启动spark的hive服务

                    $SPARK_HOME/sbin/start-thriftserver.sh --master spark://cloud-001:7077 --driver-memory 1g  --executor-memory 1g --total-executor-cores 2

4、 测试

测试spark-shell

    $SPARK_HOME/bin/spark-shell --master spark://cloud-001:7077 --driver-memory 1g  --executor-memory 1g --total-executor-cores 2

    测试spark-sql

           $SPARK_HOME/bin/spark-sql --master spark://cloud-001:7077 --driver-memory 1g  --executor-memory 1g --total-executor-cores 2

    或者

    $SPARK_HOME/bin/beeline -u jdbc:hive2://cloud-001:10000 -n hadoop

时间: 2024-08-28 12:36:21

Spark 1.4.1 安装配置的相关文章

ubuntu14.04中spark集群安装配置

一. Spark简介 Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发.Spark基于map reduce 算法模式实现的分布式计算,拥有Hadoop MapReduce所具有的优点:但不同于Hadoop MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,节省了磁盘IO耗时,性能比Hadoop更快. 所以,相对来说Hadoop更适合做批处理,而Spark更适合做需要反复迭代的机器学习.下面是我在ubuntu14.04中配置Spark

spark集群安装配置

spark集群安装配置 一. Spark简介 Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发.Spark基于map reduce 算法模式实现的分布式计算,拥有Hadoop MapReduce所具有的优点:但不同于Hadoop MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,节省了磁盘IO耗时,性能比Hadoop更快. 所以,相对来说Hadoop更适合做批处理,而Spark更适合做需要反复迭代的机器学习.下面是我在ubuntu1

spark1.1.0集群安装配置

和分布式文件系统和NoSQL数据库相比而言,spark集群的安装配置还算是比较简单的: 安装JDK,这个几乎不用介绍了(很多软件都需要JDK嘛) wget http://download.oracle.com/otn-pub/java/jdk/7u71-b14/jdk-7u71-linux-x64.tar.gz?AuthParam=1416666050_dca8969bfc01e3d8d42d04040f76ff1 tar -zxvf jdk-7u71-linux-x64.tar.gz 安装sc

spark安装配置

在装spark之前先装Scala  Scala 的安装在hadoop安装配置中已经介绍了 1.下载spark安装包 下载地址如下 http://spark.apache.org/downloads.html 我选择的是 spark-1.4.1-bin-hadoop2.6.tgz  放在/root/software 解压 tar zxvf  spark-1.4.1-bin-hadoop2.6.tgz 2.配置系统环境变量 vim /etc/profile export SPARK_HOME=/ro

Hadoop2.2集群安装配置-Spark集群安装部署

配置安装Hadoop2.2.0 部署spark 1.0的流程 一.环境描写叙述 本实验在一台Windows7-64下安装Vmware.在Vmware里安装两虚拟机分别例如以下 主机名spark1(192.168.232.147),RHEL6.2-64 操作系统,usernameRoot 从机名spark2(192.168.232.152).RHEL6.2-64 操作系统,usernameRoot 二.环境准备 1.防火墙禁用.SSH服务设置为开机启动.并关闭SELINUX 2.改动hosts文件

spark的安装配置

环境说明: 操作系统: centos7 64位 3台 centos7-1 192.168.111.10 master centos7-2 192.168.111.11 slave1 centos7-3 192.168.111.12 slave2 1.安装jdk,配置jdk环境变量 https://www.cnblogs.com/zhangjiahao/p/8551362.html 2.安装配置scala https://www.cnblogs.com/zhangjiahao/p/11689268

openfire安装配置完全教程

Java领域的IM解决方案 Java领域的即时通信的解决方案可以考虑openfire+spark+smack. Openfire是基于Jabber协议(XMPP)实现的即时通信服务器端,最新版本是3.8.1 可以到http://www.igniterealtime.org/downloads/index.jsp下载(分为windows和linux版本) 可以到http://www.igniterealtime.org/downloads/source.jsp下载源码,方便二次开发插件. Spar

XMPP-04环境安装(配置客户端)

四.配置客户端 1.来到XMPP官网,寻找所需客户端软件 2.选用电脑自带的信息,Adium和Spark这三个客户端软件,我共享的资源里有 3.首先来配置信息 打开信息 ->添加账户 ->其他邮件账户 ->继续 ->账户类型:Jabber ->用户名:zhangsan ->密码:123456 ->创建 XMPP-04环境安装(配置客户端),布布扣,bubuko.com

Spark in action Spark 以及SparkR的安装配置说明

Spark以及SparkR的安装(standalone模式) From :ssdutsu @ Inspur Company  [email protected] 操作系统 CentOS 7 Java 版本 JDK 1.7 Spark安装过程请见PDF文件 Spark 1.0的安装配置文件 网址:http://www.it165.net/admin/html/201407/3379.html (别忘了配置免密码登陆和关闭防火墙) 下面重点描述如何在linux环境下安装R,Rstudio 以及Spa