Spark 1.0.0 部署Hadoop 2.2.0上

源码编译

我的测试环境:

  • 系统:Centos 6.4 - 64位
  • Java:1.7.45
  • Scala:2.10.4
  • Hadoop:2.2.0

Spark 1.0.0 源码地址:http://d3kbcqa49mib13.cloudfront.net/spark-1.0.0.tgz

解压源码,在根去根目录下执行以下命令(sbt编译我没尝试)

./make-distribution.sh --hadoop 2.2.0 --with-yarn --tgz --with-hive

几个重要参数

--hadoop :指定Hadoop版本

--with-yarn yarn支持是必须的

--with-hive 读取hive数据也是必须的,反正我很讨厌Shark,以后开发们可以在Spark上自己封装SQL&HQL客户端,也是个不错的选择。

#      --tgz: Additionally creates spark-$VERSION-bin.tar.gz
#      --hadoop VERSION: Builds against specified version of Hadoop.
#      --with-yarn: Enables support for Hadoop YARN.
#      --with-hive: Enable support for reading Hive tables.
#      --name: A moniker for the release target. Defaults to the Hadoop verison.

不想自己编译的话直接下载二进制包吧:

Spark 1.0.0 on Hadoop 1 / CDH3, CDH4 二进制包:http://d3kbcqa49mib13.cloudfront.net/spark-1.0.0-bin-hadoop1.tgz

Spark 1.0.0 on Hadoop 2 / CDH5, HDP2 二进制包:http://d3kbcqa49mib13.cloudfront.net/spark-1.0.0-bin-hadoop2.tgz

进过漫长的等待,在源码跟目录下会生成一个tgz压缩包

把这个包copy到你想部署的目录并解压。

环境变量:

export SCALA_HOME=/opt/scala-2.10.4

export PATH=$PATH:$SCALA_HOME/bin

export SPARK_HOME=/opt/spark

export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

特别注意:只需要把解压包copy到yarn集群中的任意一台。一个节点就够了,不需要在所有节点都部署,除非你需要多个Client节点调用spark作业。

在这里我们不需要搭建独立的Spark集群,利用Yarn Client调用Hadoop集群的计算资源。

[plain] view plaincopy

  1. cp 解压后的目录/conf/log4j.properties.template 解压后的目录/conf/log4j.properties
  2. cp 解压后的目录/conf/spark-env.sh.template 解压后的目录/conf/spark-env.sh

编辑spark-env.sh

export HADOOP_CONF_DIR=/opt/hadoop/etc/hadoop

export SPARK_MASTER_IP=master

export SPARK_MASTER_PORT=7077

export SCALA_HOME=/opt/scala-2.10.4

export JAVA_HOME=/opt/jdk1.7.0_45

编辑History Server

通过配置conf/spark-defaults.conf可以查看已完成job的历史记录

spark.eventLog.enabled=true

spark.eventLog.dir=hdfs://XX

具体配置参见Spark1.0.0 history server 配置

这是我的配置,配置和之前的几个版本略有不同,但大差不差。

用Yarn Client调用一下MR中的经典例子:Spark版的word count

这里要特别注意,SparkContext有变动,之前版本wordcount例子中的的第一个参数要去掉。

[plain] view plaincopy

  1. SPARK_JAR=./lib/spark-assembly-1.0.0-hadoop2.2.0.jar \
  2. ./bin/spark-class org.apache.spark.deploy.yarn.Client \
  3. --jar ./lib/spark-examples-1.0.0-hadoop2.2.0.jar \
  4. --class org.apache.spark.examples.JavaWordCount \
  5. --args hdfs://master:9000/user/hadoop/README.md \
  6. --num-executors 2 \
  7. --executor-cores 1 \
  8. --driver-memory 1024M \
  9. --executor-memory 1000M \
  10. --name "word count on spark"

运行结果在stdout中查看

Spark 1.0.0 部署Hadoop 2.2.0上

时间: 2024-10-21 05:07:35

Spark 1.0.0 部署Hadoop 2.2.0上的相关文章

red hat 6.2 部署Hadoop 2.2.0版

今天我们来实际搭建一下Hadoop 2.2.0版,实战环境为目前主流服务器操作系统RedHat6.2系统,本次环境搭建时,各类介质均来自互联网,在搭建环境之前,请提前准备好各类介质. 一. 环境规划 功能 Hostname IP地址 Namenode Master 192.168.200.2 Datanode Slave1 192.168.200.3 Datanode Slave2 192.168.200.4 Datanode Slave3 192.168.200.5 Datanode Slav

Spark-1.4.0单机部署(Hadoop-2.6.0采用伪分布式)【已测】

??目前手上只有一个机器,就先拿来练下手(事先服务器上没有安装软件)尝试一下Spark的单机部署. ??几个参数: ??JDK-1.7+ ??Hadoop-2.6.0(伪分布式): ??Scala-2.10.5: ??Spark-1.4.0: ??下面是具体的配置过程 安装JDK 1.7+ [下载网址]http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 环境变量设置(最好不要采用o

Spark on K8S环境部署细节

Spark on K8S环境部署细节 sparkk8s time: 2020-1-3 Spark on K8S环境部署细节 Spark operator安装 准备kubectl客户端和Helm客户端 安装spark operator Spark wordcount 读写OSS 准备oss依赖的jar包 准备core-site.xml 打包支持读写oss的镜像 下载spark安装包解压 打包发布镜像 准备wordcount作业 1. spark submit 提交 2. spark operato

在RHEL 6.5上部署Hadoop 2.6伪分布式模式(单机)

第一步:安装JAVA 1.7               此步骤略过,太简单了,可参考这个: http://blog.sina.com.cn/s/blog_6a7cdcd40101b1j6.html   第二步:创建Haddop专用用户             虽然使用root用户也可以部署hadoop,但从系统安全及规范的角度考虑,还是建议大家创建专用的用户(本例中为hadoop,实际中可以是任意用户名),创建用户的命令: # useradd hadoop # passwd hadoop   

部署Hadoop高性能集群

部署Hadoop高性能集群 服务器概述 1)Hadoop是什么 Hadoop是Lucene创始人Doug Cutting,根据Google的相关内容山寨出来的分布式文件系统和对海量数据进行分析计算的基础框架系统,其中包含MapReduce程序,hdfs系统等. Hadoop包括两大核心,分布式存储系统和分布式计算系统. 2)分布式存储 为什么数据需要存储在分布式的系统中哪,难道单一的计算机存储不了吗,难道现在的几个TB的硬盘装不下这些数据吗?事实上,确实装不下.比如,很多的电信通话记彔就存储在很

Spark 1.0.0 横空出世 Spark on yarn 部署(hadoop 2.4)

就在昨天,北京时间5月30日20点多.Spark 1.0.0终于发布了:Spark 1.0.0 released 根据官网描述,Spark 1.0.0支持SQL编写:Spark SQL Programming Guide 个人觉得这个功能对Hive的市场的影响很小,但对Shark冲击很大,就像win7和winXP的关系,自相残杀嘛? 这么着急的发布1.x 版是商业行为还是货真价实的体现,让我们拭目以待吧~~~~ 本文是CSDN-撸大湿原创,如要转载请注明出处,谢谢:http://blog.csd

Hadoop 2.2.0部署安装(笔记,单机安装)

SSH无密安装与配置 具体配置步骤: ◎ 在root根目录下创建.ssh目录 (必须root用户登录) cd /root & mkdir .ssh chmod 700 .ssh & cd .ssh ◎ 创建密码为空的 RSA 密钥对: ssh-keygen -t rsa -P "" ◎ 在提示的对称密钥名称中输入 id_rsa将公钥添加至 authorized_keys 中: cat id_rsa.pub >> authorized_keys chmod 6

Hadoop 2.6.0分布式部署参考手册

Hadoop 2.6.0分布式部署参考手册 关于本参考手册的word文档,可以到如下地址下载:http://download.csdn.net/detail/u012875880/8285323 1.环境说明 1.1安装环境说明 本列中,操作系统为Centos 7.0,JDK版本为Oracle HotSpot 1.7,Hadoop版本为Apache Hadoop 2.6.0,操作用户为hadoop. 2.2 Hadoop集群环境说明: 集群各节点信息参考如下: 主机名 IP地址 角色 Resou

Tez 整合Hadoop CDH 5.3.0安装部署

子曰:君子食无求饱,居无求安,敏于事而慎于言,就有道而正焉,可谓好学也已. 译文:君子吃不求太饱,住不求太舒适,做事勤快,说话谨慎,向道德高的人学习,并能改正自己的缺点,这样就可以称得上好学了. 最近要把CDH的版本换成了5.3.0,hive的版本从0.12换成了0.13,升级完成后,简单测试发现版本的升级对性能的影响非常大.hive在0.13中开始支持tez做为执行引擎来提高执行速度. Tez 和 MR 的对比图: 图中可以看出原始的 MR 程序是多job 的DAG,每个job都会进行写盘和读