Spark的编译

1.环境要求

2.检测环境

3.解压resposity

4.解压spark

　　 tar -zxvf spark-1.6.1.tar.gz -C /etc/opt/modules/

5.修改make-distribution.sh文件

6.修改pom.xml（共两处scala.version）

7.放置依赖服务，先上传

8.将依赖的压缩包解压到spark下的build下

　　tar -zxvf zinc-0.3.5.3.tgz -C /etc/opt/modules/spark-1.6.1/build

　　tar -zxvf scala-2.10.4.tgz -C /etc/opt/modules/spark-1.6.1/build

时间： 2024-08-19 00:35:38

Spark的编译的相关文章

Spark单机编译（on CentOS 6）

注:1. 编译Spark之前,需要搭建Java和Scala环境,参见http://www.cnblogs.com/kevingu/p/4418779.html. 2. Spark之前使用sbt进行编译,现在建议使用maven并兼容sbt,但会逐步淘汰sbt编译方式.本文使用Maven工具编译Spark 1.2.0. 一.Maven工具搭建 (I)从http://maven.apache.org/download.cgi下载Maven二进制安装包apache-maven-3.2.5-bin.tar

spark cdh5编译安装[spark-1.0.2 hadoop2.3.0 cdh5.1.0]

前提你得安装有Hadoop 我的版本hadoop2.3-cdh5.1.0 1.下载maven包 2.配置M2_HOME环境变量,配置maven 的bin目录到path路径 3.export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m" 4.到官方下载spark-1.0.2.gz压缩包.解压 5.进入spark解压包目录 6.执行./make-distribution.sh --hadoop

Spark wordcount 编译错误 -- reduceByKey is not a member of RDD

Attempting to run http://spark.apache.org/docs/latest/quick-start.html#a-standalone-app-in-scala from source. This line val wordCounts = textFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_+_) reports compile valu

问题：sbt打包出错--Spark打包编译出错

问题分析: 对sbt版本结果没有影响,但是会影响后续的打包编译!!!!要命. 解决方法: 运行命令:sudo gedit ~/.bashrc 最后一行添加:TERM="${TERM/xterm-256color/xterm-color" 最后:source ~/.bashrc 实验结果: OK,sbt安装和编译打包,两个问题都解决了原文地址:https://www.cnblogs.com/daisy99lijing/p/12293799.html

Spark编译与部署

Spark入门实战系列--2.Spark编译与部署(上)--基础环境搭建 [注] 1.该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取: 2.Spark编译与部署将以CentOS 64位操作系统为基础,主要是考虑到实际应用一般使用64位操作系统,内容分为三部分:基础环境搭建.Hadoop编译安装和Spark编译安装,该环境作为后续实验基础: 3.文章演示了Hadoop.Spark的编译过程,同时附属资源提供了编译好的安装包,觉得编译费时间可以直接使用这些

Spark入门实战系列--2.Spark编译与部署（上）--基础环境搭建

[注] 1.该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取: 2.Spark编译与部署将以CentOS 64位操作系统为基础,主要是考虑到实际应用一般使用64位操作系统,内容分为三部分:基础环境搭建.Hadoop编译安装和Spark编译安装,该环境作为后续实验基础: 3.文章演示了Hadoop.Spark的编译过程,同时附属资源提供了编译好的安装包,觉得编译费时间可以直接使用这些编译好的安装包进行部署. 1.运行环境说明 1.1 硬软件环境 l 主机

spark编译与onyarn的运行

Spark on yarn执行流程源代码分析目前的分析主要基于spark0.9.0的cdh5的版本进行分析, 源代码下载地址:https://github.com/cloudera/spark.git 下载方式:gitclone url ./spark 进入spark目录,执行gitcheckout cdh5-0.9.0_5.0.0 源代码编译使用sbt编译spark 运行sbt命令需要使用http代理,不然连接不上网络,进入sbt/目录,使用vimsbt修改里面的内容, 在最下面java命

Apache Spark源码走读之12 -- Hive on Spark运行环境搭建

欢迎转载,转载请注明出处,徽沪一郎. 楔子 Hive是基于Hadoop的开源数据仓库工具,提供了类似于SQL的HiveQL语言,使得上层的数据分析人员不用知道太多MapReduce的知识就能对存储于Hdfs中的海量数据进行分析.由于这一特性而收到广泛的欢迎. Hive的整体框架中有一个重要的模块是执行模块,这一部分是用Hadoop中MapReduce计算框架来实现,因而在处理速度上不是非常令人满意.由于Spark出色的处理速度,有人已经成功将HiveQL的执行利用Spark来运行,这就是已经非常

编译spark1.6.1源码

编译spark1.6.1源码正常的情况下从spark官方网站下载的发行包已经可以满足正常使用(默认支持了hive),但如果要编译相应cdh版本的hadoop或者把ganglia打包进来等,那就要重新指定编译参数来重新编译源码了.建议最好在linux环境下进行编译. 1.源码下载官网下载地址:https://spark.apache.org/downloads.html 注意:源码放置目录最好不要存在中文路径 2.安装并配置maven 根据官网的说明,通过maven来编译spark1.6.1时