利用docker搭建spark hadoop workbench

目的

  • 用docker实现所有服务
  • 在spark-notebook中编写Scala代码,实时提交到spark集群中运行
  • 在HDFS中存储数据文件,spark-notebook中直接读取

组件

  • Spark (Standalone模式, 1个master节点 + 可扩展的worker节点)
  • Spark-notebook
  • Hadoop name node
  • Hadoop data node
  • HDFS FileBrowser

实现

最初用了Big Data Europe的docker-spark-hadoop-workbench,但是docker 服务运行后在spark-notebook中运行代码会出现比较经典的异常:

 java.lang.ClassCastException: cannot assign instance of scala.collection.immutable.List$SerializationProxy to field org.apache.spark.rdd.RDD.org$apache$spark$rdd$RDD$$dependencies_ of type scala.collection.Seq in instance of org.apache.spark.rdd.MapPartitionsRDD

经过调查发现是因为spark-notebook和spark集群使用的spark版本不一致,于是fork了Big Data Europe的repo,在此基础上做了一些修改,基于spark2.11-hadoop2.7实现了一个可用的workbench.

代码链接

Github

时间: 2024-10-28 23:02:21

利用docker搭建spark hadoop workbench的相关文章

ubuntu 16.04利用docker搭建java+tomcat+nginx反向代理/动静分离

ubuntu 16.04利用docker搭建java+tomcat+nginx反向代理 新建两个docker容器 docker run -it --name Tomcat-mysql -v /mnt:/mnt -p 8866:80 -p 33006:3306 ubuntu /bin/bash docker run -itd --name webserver -p 8888:80 -v /mnt/:/mnt/ ubuntu /bin/bash [email protected]:~# docker

利用Docker搭建本地https环境的完整步骤

利用Docker搭建本地https环境的完整步骤 这篇文章主要给大家介绍了关于如何利用Docker搭建本地https环境的完整步骤,文中通过示例代码将实现的步骤介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 什么是 HTTPS 我们都知道 Web App 的运行都是建立在网络应用层 HTTP 协议的,HTTP 协议能够进行客户端和服务器之间的请求和返回.但是这个过程是明文传输的,当请求被抓包后传输内容很容易被篡改,这对用户的安全性来说是极其严重的威胁.PWA 应

CentOS 利用docker 搭建图床

CentOS 利用docker 搭建图床 安装docker:yum install docker 启动docker:systemctl start docker,可以设置一下开机启动:systemctl enable docker 拉取一个镜像:docker image pull kdelfour/lychee-docker 启动镜像:docker run -it -d -p 5120:80 kdelfour/lychee-docker [端口映射:浏览器默认的 80 端口,图床可以改成其他端口

利用docker 部署 spark项目的端口问题

利用Docker  安装项目: local模式要设置sparklocal.spark.driver.host yarn模式中只设置sparklocal.spark.driver.host和可以启动,但是无法执行任何语句,需要再设置 sparkyarn.spark.driver.bindAddress 和 blockmanager 即可,在spark启动时指定对应host和bindaddress,docker指定访问设定的host和bindAddress 和 blockmanager即可 注意:s

使用 Docker 搭建本地 Hadoop 集群

终于开始学习hadoop了,虽然是学校开课了才开始跟着学校的课程学,至少也是开始了.首先要做的就是搭建好一个hadoop的环境,需要三台主机,配置一个master两个slave的架构.老师让我们用vbox来做,但是个人觉得虚拟机太慢了,而且还要开三个,太亏.刚好最近开始接触docker,准备就在docker的环境下搭建hadoop环境. 安装docker 可以考虑使用国内的加速镜像 daocloud.io 注册后可以看到如何使用 由于我已经通过官网的方法安装了,这里就只记录下我的操作: curl

ubuntu14.04环境下利用docker搭建solrCloud集群

主要内容: 技术关键点:docker17.06.3安装,docker自制镜像及相关容器操作,docker分配固定IP及添加端口映射,solrCloud集群部署等 主要思路:在Ubuntu14.04操作系统的宿主机中,安装docker17.06.3,将宿主机的操作系统制作成docker基础镜像,之后使用自制的基础镜像在docker中启动3个容器,分配固定IP,再在3个容器中配置solrCloud集群. 注:solrCloud采用的solr内置jetty,需要单独配置zookeeper 容器IP及名

Windows下搭建Spark+Hadoop开发环境

只需要确保您的电脑已装好Java环境,那么就可以开始了. 一. 准备工作 1. 下载Hadoop2.7.1版本(写Spark和Hadoop主要是用到了Yarn,因此Hadoop必须安装) 下载地址:http://apache.fayea.com/hadoop/common/hadoop-2.7.1/ 下载其中的hadoop-2.7.1.tar.gz并解压到一个固定目录作为Hadoop安装目录. 2. 下载支持插件 下载地址:https://github.com/ShixiangWan/winut

Docker 搭建Spark 依赖singularities/spark镜像

拉取镜像: [[email protected] docker-spark-2.1.0]# docker pull singularities/spark 查看: [[email protected] docker-spark-2.1.0]# docker image ls REPOSITORY TAG IMAGE ID CREATED SIZE docker.io/singularities/spark latest 84222b254621 6 months ago 1.39 GB 创建do

利用docker搭建测试环境--安装

软件测试过程中,总会碰到测试环境不够用的尴尬情况.即时有了机器还要经历装系统,配置环境,调试等一系列繁琐的问题.虽然市面上也有一些批处理话的工具(如salt,fabric等),但是还是需要实体机器作为支撑,增大成本. 这里介绍一个可以用虚拟测试环境的软件docker http://baike.baidu.com/link?url=L2ViMZm7idMZRx3ymex14SITS99B9UZWSVF_gHtOxmRZH4tvXRObooRUICVewSXf-Rt5q0X4vb2KiZ5EQ6dm