spark standalone模式 zeppelin安装

1.  前置条件

None root account

Apache Maven

Java 1.7

2. 源码

https://github.com/apache/incubator-zeppelin

git clone https://github.com/apache/incubator-zeppelin

3. 编译

本地模式:mvn clean package -DskipTests

集群模式:  mvn clean package -Pspark-1.4 -Dspark.version=1.4.1 -Dhadoop.version=2.3.0-cdh5.1.0 -Phadoop-2.3 -DskipTests

在安装过程中 可能会出现各种问题,但是一般都是网络问题导致,但可重新执行下编译命令,如果编译出现oom,增加如下命令:

export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m

但是在编译zeppelin-web模块 会遇到各种诡异的问题,web模块使用了node, grunt, bower工具

修改zeppelin-web项目的pom.xml

[html] view plaincopy

  1. <plugin>
  2. <groupId>com.github.eirslett</groupId>
  3. <artifactId>frontend-maven-plugin</artifactId>
  4. <version>0.0.23</version>
  5. <executions>
  6. <execution>
  7. <id>install node and npm</id>
  8. <goals>
  9. <goal>install-node-and-npm</goal>
  10. </goals>
  11. <configuration>
  12. <nodeVersion>v0.10.18</nodeVersion>
  13. <npmVersion>1.3.8</npmVersion>
  14. </configuration>
  15. </execution>
  16. <execution>
  17. <id>npm install</id>
  18. <goals>
  19. <goal>npm</goal>
  20. </goals>
  21. </execution>
  22. <execution>
  23. <id>bower install</id>
  24. <goals>
  25. <goal>bower</goal>
  26. </goals>
  27. <configuration>
  28. <arguments>--allow-root install</arguments>
  29. </configuration>
  30. </execution>
  31. <execution>
  32. <id>grunt build</id>
  33. <goals>
  34. <goal>grunt</goal>
  35. </goals>
  36. <configuration>
  37. <arguments>--no-color --force</arguments>
  38. </configuration>
  39. </execution>
  40. </executions>
  41. </plugin>

有网友推荐我这样做,但感觉没啥效果

nodeVersion & npmVersion 版本分别改成v0.12.4,2.10.1,但我感觉用处不大

[html] view plaincopy

  1. <configuration>
  2. <nodeVersion>v0.12.4</nodeVersion>
  3. <npmVersion>2.10.1</npmVersion>
  4. </configuration>

安装顺序: 
1. 首先需要提前安装好npm和node。 sudo apt-get install npm和npm install -g node。 
2. 进入zeppelin-web目录下,执行 npm install。它会根据package.json的描述安装一些grunt的组件,安装bower,然后再目录下生产一个node_modules目录。 
3. 执行 bower -–alow-root install,会根据bower.json安装前段库依赖,有点类似于java的mvn。见http://bower.io/ 
4. 执行 grunt –force,会根据Gruntfile.js整理web文件。 
5. 最好执行 mvn install -DskipTests,把web项目打包,在target目录下会生成war。

mvn可能会出错,因为web.xml不在默认路径下,需要在pom.xml里添加:

[html] view plaincopy

  1. <plugin>
  2. <groupId>org.apache.maven.plugins</groupId>
  3. <artifactId>maven-war-plugin</artifactId>
  4. <configuration>
  5. <webXml>app\WEB-INF\web.xml</webXml>
  6. </configuration>
  7. </plugin>

4. 配置
进入zeppelin_home/conf/
将 zeppelin-env.sh.template 修改为 zeppelin-env.sh
将 zeppelin-site.xml.template 修改为 zeppelin-site.xml

编译zeppelin-site.xml文件,
zeppelin.server.port 端口改成8089

[html] view plaincopy

  1. <property>
  2. <name>zeppelin.server.port</name>
  3. <value>8089</value>
  4. <description>Server port. port+1 is used for web socket.</description>
  5. </property>

我现在使用伪分布式模式,所以就不修改 zeppelin-env.sh文件中 MASTER,使用默认配置,即为local模式
如果要是使用spark standalone 分布式模式,那就改成如下
export MASTER=spark://master:7077

5. 启动

在zeppelin_home目录下执行如下命令:
bin/zeppelin-daemon.sh start

Pid dir doesn‘t exist, create /home/cluster/apps/incubator-zeppelin-0.5.0/run
Zeppelin start                                             [  OK  ]

启动成功~

可以在localhost:8089 访问到zepplin主页了。如果没有出主页,可以看浏览器console,是缺少了什么文件,八成是web项目打包的时候漏了,很可能是bower和grunt命令执行的时候缺少依赖出错的。

主界面:

zeppelin home目录下会看到一个notebook文件夹,按notebook的名字命名区分了多个子目录。目录下是一个note.json文件,记录了每个notebook里输入的代码和执行结果,启动的时候会加载起来。

6.测试

zeppelin为spark做了更好的支持,比如默认是scala环境,默认sc已经创建好,即spark local可跑,默认spark sql有可视化效果。

通过标识%md, %sh, %sql, %spark, %hive, %tajo来区分要执行的是什么,默认不写的话,执行环境是scala。在 http://127.0.0.1:8089/#/interpreter 页面里有详细的参数说明。

简单测试下 %sh,scala,%spark

好吧 ,先搞到这吧,稍后会有一篇 关于详细使用zeppelin 以及 zeppelin on yarn方式编译

尊重原创,拒绝转载

时间: 2024-11-05 22:24:20

spark standalone模式 zeppelin安装的相关文章

Spark Standalone模式

Spark Standalone模式 安装Spark Standalone集群 手动启动集群 集群创建脚本 提交应用到集群 创建Spark应用 资源调度及分配 监控与日志 与Hadoop共存 配置网络安全端口 高可用性 基于Zookeeper的Master 本地系统的单节点恢复 除了运行在mesos或yarn集群管理器中,spark也提供了简单的standalone部署模式.你可以通过手动启动master和worker节点来创建集群,或者用官网提供的启动脚本.这些守护进程也可以只在一台机器上以便

Spark Standalone模式环境搭建

前提:安装好jdk1.7,hadoop 安装步骤: 1.安装scala 下载地址:http://www.scala-lang.org/download/ 配置环境变量: export SCALA_HOME=/..../scala export PATH=.:$SCALA_HOME/bin   .... 验证:scala -version 2.安装spark 使用自己编译过的对应自己hadoop的spark 配置环境变量: export SPARK_HOME=/.../spark export P

在myeclipse中使用Java语言进行spark Standalone模式应用程序开发

一.环境配置 Myeclipse中虽然已经集成了maven插件,但是由于这个插件版本较低,建立maven project会出现错误. 解决办法:自己到官网http://maven.apache.org/下载最新版本的maven插件,解压,在环境变量中注册. 新建环境变量M2_HOME 在PATH里加入maven的bin的路径 配置完毕后,在Windows命令提示符下,输入mvn -v测试一下,配置成功显示如图: 配置成功后,还需要在Myeclipse中用新的maven插件将就得替换掉,如图: 二

安装部署spark standalone 模式集群

前提,安装了jdk1.7,scala,hadoop单节点 步骤: spark-env.sh 加入: HADOOP_CONF_DIR=/root/------                        表示使用hdfs上的资源,如果需要使用本地资源,请把这一句注销 2,slaves 3,spark-defalts.conf --------------------------------------------------------------------------------------

Spark Standalone Mode单机安装

因为Spark与Hadoop是关联的,所以在安装Spark前应该根据已安装的Hadoop版本来选择待安装的Sqark版本,要不然就会报“Server IPC version X cannot communicate with client version Y”的错误. 我安装的Hadoop版本为Hadoop2.4.0(下载),选择的Spark版本为spark-1.2.0-bin-hadoop2.4.tgz(下载). Spark依赖与Scala,所以还需要预装Scala,我下载的版本为scala-

spark standalone模式的HA

参照官网文档:High Availability 一共有2中模式,基于文件系统.基于zookeeper. 1.基于文件系统,即将master的信息同步到某个文件目录中,当一个master挂掉之后,会启动宁外一个master读取目录的信息,正在执行的spark应用数据就不会丢失了.按照文档所说,在spark-env.sh中设置如下参数,重启即可. SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=FILESYSTEM -Dspark.deplo

Spark standalone集群安装

本文不会搞什么Yarn混搭Spark,只想建立一个纯粹的Spark环境,太多层东西搅和在一起,不靠谱. 创建spark服务运行帐号 # useradd smile smile帐号就是spark服务的运行帐号. 下载安装包并测试 在root帐号下,下载最新安装包,注意不是source,而是bin安装包,支持hadoop2.6以后的 wget http://mirrors.cnnic.cn/apache/spark/spark-1.5.1/spark-1.5.1-bin-hadoop2.6.tgz

Spark安装部署(local和standalone模式)

Spark运行的4中模式: Local Standalone Yarn Mesos 一.安装spark前期准备 1.安装java $ sudo tar -zxvf jdk-7u67-linux-x64.tar.gz -C /opt/service/ export JAVA_HOME=/opt/service/jdk1.7.0_67 export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH export CLASSPATH=.:$JAVA_HOME/l

【Spark】Spark的Standalone模式安装部署

Spark执行模式 Spark 有非常多种模式,最简单就是单机本地模式,还有单机伪分布式模式,复杂的则执行在集群中,眼下能非常好的执行在 Yarn和 Mesos 中.当然 Spark 还有自带的 Standalone 模式,对于大多数情况 Standalone 模式就足够了,假设企业已经有 Yarn 或者 Mesos 环境.也是非常方便部署的. local(本地模式):经常使用于本地开发測试,本地还分为local单线程和local-cluster多线程; standalone(集群模式):典型的