docker on spark

  1. 从docker 仓库 pull 镜像

    docker pull sequenceiq/spark:1.4.0

  2. 构建 docker 镜像

    docker build –rm -t sequenceiq/spark:1.4.0 .

    -t 选项是你要构建的sequenceiq/spark image的tag,就好比ubuntu:13.10一样 –rm 选项是告诉Docker在构建完毕后删除暂时的Container,Dockerfile的每一行指令都会创建一个暂时的Container,一般你是不须要这些暂时生成的Container的

  3. 执行镜像
    • if using boot2docker make sure your VM has more than 2GB memory
    • in your /etc/hosts file add $(boot2docker ip) as host ‘sandbox’ to make it easier to access your sandbox UI
    • open yarn UI ports when running container

docker run -it -p 8088:8088 -p 8042:8042 -h sandbox sequenceiq/spark:1.4.0 bash

or

docker run -d -h sandbox sequenceiq/spark:1.4.0 -d

  • 假设要进行交互式操作(比如Shell脚本),那我们必须使用-i -t參数同容器进行数据交互。可是当通过管道同容器进行交互时,就不须要使用-t參数
  • -h来设定hostname
  • 假设使用-p或者-P,那么容器会开放部分port到主机。仅仅要对方能够连接到主机。就能够连接到容器内部。

    当使用-P时,Docker会在主机中随机从49153 和65535之间查找一个未被占用的port绑定到容器。

    你能够使用docker port来查找这个随机绑定port。

  • 假设在docker run后面追加-d=true或者-d。那么容器将会执行在后台模式。此时全部I/O数据仅仅能通过网络资源或者共享卷组来进行交互。由于容器不再监听你执行docker run的这个终端命令行窗体。

    但你能够通过执行docker attach来又一次附着到该容器的回话中。

    须要注意的是。容器执行在后台模式下,是不能使用–rm选项的。

  • -p 8088:8088 这个port是resourcemanager 或者 集群 ,-p 8042:8042 这个port是 nodemanagerport
    1. 版本号

      Hadoop 2.6.0 and Apache Spark v1.4.0 on Centos

    2. 測试

      There are two deploy modes that can be used to launch Spark applications on YARN.

      • YARN-client mode
In yarn-cluster mode, the Spark driver runs inside an application master process which is managed by YARN on the cluster, and the client can go away after initiating the application.

Estimating Pi (yarn-cluster mode):

# execute the the following command which should write the "Pi is roughly 3.1418" into the logs
# note you must specify --files argument in cluster mode to enable metrics
spark-submit --class org.apache.spark.examples.SparkPi \
--files $SPARK_HOME/conf/metrics.properties \
--master yarn-cluster \
--driver-memory 1g \
--executor-memory 1g \
--executor-cores 1 \
$SPARK_HOME/lib/spark-examples-1.4.0-hadoop2.6.0.jar
  • YARN-cluster mode
# execute the the following command which should print the "Pi is roughly 3.1418" to the screen
spark-submit --class org.apache.spark.examples.SparkPi \
--master yarn-client --driver-memory 1g --executor-memory 1g --executor-cores 1 $SPARK_HOME/lib/spark-examples-1.4.0-hadoop2.6.0.jar
时间: 2024-11-02 01:01:44

docker on spark的相关文章

利用docker 部署 spark项目的端口问题

利用Docker  安装项目: local模式要设置sparklocal.spark.driver.host yarn模式中只设置sparklocal.spark.driver.host和可以启动,但是无法执行任何语句,需要再设置 sparkyarn.spark.driver.bindAddress 和 blockmanager 即可,在spark启动时指定对应host和bindaddress,docker指定访问设定的host和bindAddress 和 blockmanager即可 注意:s

利用docker搭建spark hadoop workbench

目的 用docker实现所有服务 在spark-notebook中编写Scala代码,实时提交到spark集群中运行 在HDFS中存储数据文件,spark-notebook中直接读取 组件 Spark (Standalone模式, 1个master节点 + 可扩展的worker节点) Spark-notebook Hadoop name node Hadoop data node HDFS FileBrowser 实现 最初用了Big Data Europe的docker-spark-hadoo

Docker 搭建Spark 依赖singularities/spark镜像

拉取镜像: [[email protected] docker-spark-2.1.0]# docker pull singularities/spark 查看: [[email protected] docker-spark-2.1.0]# docker image ls REPOSITORY TAG IMAGE ID CREATED SIZE docker.io/singularities/spark latest 84222b254621 6 months ago 1.39 GB 创建do

docker中spark+scala安装配置

一.scala安装首先下载scala压缩包 wget https://downloads.lightbend.com/scala/2.11.7/scala-2.11.7.tgz 解压 tar -zxvf scala-2.11.7.tgz 移动目录 mv scala-2.11.7 /usr/local/ 改名 cd /usr/local/mv scala-2.11.7 scala 配置环境变量 vim /etc/profileexport SCALA_HOME=/usr/local/scalaex

使用docker安装部署Spark集群来训练CNN(含Python实例)

使用docker安装部署Spark集群来训练CNN(含Python实例) 本博客仅为作者记录笔记之用,不免有很多细节不对之处. 还望各位看官能够见谅,欢迎批评指正. 博客虽水,然亦博主之苦劳也. 如需转载,请附上本文链接,不甚感激! http://blog.csdn.net/cyh_24/article/details/49683221 实验室有4台神服务器,每台有8个tesla-GPU,然而平时做实验都只使用了其中的一个GPU,实在暴遣天物! 于是想用spark来把这些GPU都利用起来.听闻d

Docker on YARN在Hulu的实现

这篇文章是我来Hulu这一年做的主要工作,结合当下流行的两个开源方案Docker和YARN,提供了一套灵活的编程模型,目前支持DAG编程模型,将会支持长服务编程模型. 基于Voidbox,开发者可以很容易的写出一个分布式的框架,Docker作为运行的执行引擎,YARN作为集群资源的管理系统. 同时这篇文章也发表在Hulu官方的技术博客上:http://tech.hulu.com/blog/2015/08/06/voidbox-docker-on-yarn/ 1. Voidbox Motivati

Docker Resources

Menu Main Resources Books Websites Documents Archives Community Blogs Personal Blogs Videos Related Projects OS Virtual Machine Competitors Management Tools Paas Platforms Integration Projects Monitoring Networking Continuous Integration Development

Install Docker on Mac OS X

小白来山寨一把官网文档. Docker不能直接跑在OS X上,需要先安装下VirtualBox和boot2docker.boot2docker会帮我们启动vm,启动docker,并且本身提供一些管理命令. boot2docker也很轻量级,完全在内存里启动一个VM,只占24M大小,几秒内就可以启动. 安装过程 1) 下载VirtualVM-xxx-xxx.dmg,并安装. 2) 使用brew安装boot2docker以及docker brew install boot2docker brew i

hadoop生态搭建(3节点)-10.spark配置

# https://www.scala-lang.org/download/2.12.4.html# ==================================================================安装 scala tar -zxvf ~/scala-2.12.4.tgz -C /usr/local rm –r ~/scala-2.12.4.tgz # http://archive.apache.org/dist/spark/spark-2.3.0/ # ==