spark-1.2.0编译资料

说句实话,这次安装spark真是个非常费劲的过程,spark好像确实都需要自己编译,用自己编译好的版本安转,对于一个菜鸟初学者,抱着求职的欲望,却被天朝的墙挡住,就是一个悲剧,这里我转载了一篇别人写好的,编译过程的帖子,我也是按照这个过程做的编译。

但我提供一下了链接供你下载使用,希望能给你提供一定的帮助!

1、spark-1.2.0的源码包

2、scala-2.10.4的安装包

3、我用来编译的对应的hadoop-2.4.1的安装包和hadoop的2.2.0的hadoop包

4、我编译的过程中生成的maven的repository文件目录打成的压缩包

5、maven的安装包

6、最重要的还有打包好的spark-1.2.0-bin-2.2.0.tgz和spark-1.2.0-bin-2.4.1.tgz,这两个安装包

(如有什么资料不全,还希望各位积极讨要,我尽量给大家补全)

所有文件都在这个文件夹下

http://pan.baidu.com/s/1eQy8E5c

----------------------------------------------------------------------------------------

Spark1.1.0的源码编译和部署包生成,其本质只有两种:Maven和SBT,只不过针对不同场景而已:

  • Maven编译
  • SBT编译
  • 部署包生成(内嵌Maven编译),适用于维护人员

编译的目的是生成指定环境下运行Spark本身或Spark Application的JAR包。缺省编译所支持的hadoop环境是hadoop1.0.4。Spark1.1.0的编译对几种编译方法(Maven、SBT、make-distribution.sh)进行了配置项的统一,都可以使用Maven的profile配置项;另外,对于需要额外版权的集成组件也提供了Maven配置项,如spark-ganglia-lgpl、kinesis-asl,方便了用户的编译。在本例中,笔者使用的环境是hadoop2.2.0,支持hive,并和ganglia、kinesis-asl集成。

1:获取Spark1.1.0 源码

官网下载地址http://spark.apache.org/downloads.html

2:SBT编译

将源代码复制到指定目录,然后进入该目录,运行:

sbt/sbt assembly -Pyarn -Phadoop-2.2 -Pspark-ganglia-lgpl -Pkinesis-asl -Phive

3:Maven编译

事先安装好maven3.04或maven3.05,并设置要环境变量MAVEN_HOME,将$MAVEN_HOME/bin加入PATH变量。然后将源代码复制到指定目录,然后进入该目录,先设置Maven参数:

  1. export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"

再运行:

  1. mvn -Pyarn -Phadoop-2.2 -Pspark-ganglia-lgpl -Pkinesis-asl -Phive -DskipTests clean package

5:生成spark部署包

编译完源代码后,虽然直接用编译后的目录再加以配置就可以运行spark,但是这时目录很庞大,有800M左右多吧,部署起来很不方便,所以需要生成部署包。

spark1.1.0源码根目录下带有一个脚本文件make-distribution.sh可以生成部署包,其用法和spark1.0.0有了较大变动,开始支持MAVEN的配置参数,用法如下:

  1. ./make-distribution.sh [--name] [--tgz] [--with-tachyon] <maven build options>
  • --with-tachyon:是否支持内存文件系统Tachyon,不加此参数时不支持tachyon。
  • --tgz:在根目录下生成 spark-$VERSION-bin.tgz,不加此参数时不生成tgz文件,只生成/dist目录。
  • --name NAME:和--tgz结合可以生成spark-$VERSION-bin-$NAME.tgz的部署包,不加此参数时NAME为hadoop的版本号。

如果要生成spark支持yarn、hadoop2.2.0、hive的部署包,只需要将源代码复制到指定目录,进入该目录后运行:

./make-distribution.sh --tgz --name 2.2.0 -Pyarn -Phadoop-2.2  -Phive

如果要生成spark支持yarn、hadoop2.2.0、ganglia、hive的部署包,只需要将源代码复制到指定目录,进入该目录后运行:

  1. ./make-distribution.sh --tgz --name 2.2.0 -Pyarn -Phadoop-2.2 -Pspark-ganglia-lgpl  -Phive
时间: 2024-11-14 12:56:36

spark-1.2.0编译资料的相关文章

Spark 1.1.0 编译(为了支持hbase 0.98.6)

为了支持hbase0.98.6,需要重新编译spark 1. 下载spark 1.1.0源代码,以及 scala-2.10.4的bin包. 将环境变量 SCALA_HOME 设置为 scala-2.10.4 的目录位置. 2. 下载较新的pom.xml (https://github.com/tedyu/spark) 将该repository中的 spark/pom.xml和spark/examples/pom.xml下载下来,覆盖至用于编译的spark源代码中. 3. 进入源代码目录编译 ex

Spark修炼之道(进阶篇)——Spark入门到精通:第一节 Spark 1.5.0集群搭建

作者:周志湖 网名:摇摆少年梦 微信号:zhouzhihubeyond 本节主要内容 操作系统环境准备 Hadoop 2.4.1集群搭建 Spark 1.5.0 集群部署 注:在利用CentOS 6.5操作系统安装spark 1.5集群过程中,本人发现Hadoop 2.4.1集群可以顺利搭建,但在Spark 1.5.0集群启动时出现了问题(可能原因是64位操作系统原因,源码需要重新编译,但本人没经过测试),经本人测试在ubuntu 10.04 操作系统上可以顺利成功搭建.大家可以利用CentOS

hadoop2.1.0编译安装教程(转载)

由于现在hadoop2.0还处于beta版本,在apache官方网站上发布的beta版本中只有编译好的32bit可用,如果你直接下载安装在64bit的linux系统的机器上,运行会报一个INFO util.NativeCodeLoader - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable的错误,但在实际测试中是可以正常安装并可以运行自带的w

spark1.2.0编译

现在最新版本是1.2.0 我用的maven编译,官网有现成的编译命令 http://spark.apache.org/docs/latest/building-spark.html 我的hadoop是2.2.0,所以命令为: export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m" mvn -Pyarn -Phadoop-2.2 -Dhadoop.version=2.2.0 -Dskip

Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN

Spark Streaming 编程指南 概述 一个入门示例 基础概念 依赖 初始化 StreamingContext Discretized Streams (DStreams)(离散化流) Input DStreams 和 Receivers(接收器) DStreams 上的 Transformations(转换) DStreams 上的输出操作 DataFrame 和 SQL 操作 MLlib 操作 缓存 / 持久性 Checkpointing Accumulators, Broadcas

Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets Guide | ApacheCN

Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门 起始点: SparkSession 创建 DataFrames 无类型的Dataset操作 (aka DataFrame 操作) Running SQL Queries Programmatically 全局临时视图 创建Datasets RDD的互操作性 使用反射推断Schema 以编程的方式指定Schema Aggregatio

Qt5.5.0编译移植到Linux-Arm-A9

这篇是我的第二篇博客,呵呵.上次那篇发牢骚是我第一次写博客.我选择在开源中国社区写博客,是因为这个上面平常有很多关于科技领域和程序员的资讯(新闻),而且有很多技术资料和开源软件唾手可得,下载也方便.最重要的是我喜欢看这个上面的评论,不管是喷子还是喷喷子的喷子,都很又意思.额...我不是打广告,我只是表示一下自己的真是感受,言归正传吧. Qt4到5有很多变化的,首先元对象系统变了,Qt5的信号和槽基于模板了,而不是以前的字符串.这样的话信号和槽的性能应该会提高很多.其实以前信号和槽的也不慢,只是很

Spark2.1.0编译

1.下载spark源码包 http://spark.apache.org/downloads.html 2.安装Scala与maven,解压spark源码包 安装Scala: tar zxf scala-2.11.8.tar 修改vim /etc/profile export SCALA_HOME=/usr/scala/scala-2.11.8 export PATH=$PATH:$SCALA_HOME/bin 安装maven tar zxf apache-maven-3.3.9.tar 修改v

hadoop-2.2.0编译

由于从官网下载的hadoop中依赖包 native hadoop library是基于32位版本的,在64位机器上安装,会出现以下错误: 2014-05-30 19:47:49,703 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: registered UNIX signal handlers for [TERM, HUP, INT]2014-05-30 19:47:49,887 WARN org.apache.hadoop.hdfs