Learn Spark - 安装

安装

下载 Spark 1.4.1

1
wget -c http://www.interior-dsgn.com/apache/spark/spark-1.4.1/spark-1.4.1.tgz

编译Spark,使用 scala 2.11

1

2
./dev/change-version-to-2.11.sh

mvn -Dscala-2.11 -DskipTests clean package

运行 spark-shell

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16
./bin/spark-shell

15/07/23 17:18:48 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

Welcome to

____              __

/ __/__  ___ _____/ /__

_ / _ / _ `/ __/  '_/

/___/ .__/_,_/_/ /_/_   version 1.4.1

/_/

Using Scala version 2.11.6 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_40)

Type in expressions to have them evaluated.

Type :help for more information.

Spark context available as sc.

SQL context available as sqlContext.

scala>

看到以上信息就代表 Spark 已经安装好了。

简单的配置

修改 $SPARK_HOME/conf/spark-env.conf 设置如下参数:

1

2

3

4

5

6
export JAVA_HOME="/Library/Java/JavaVirtualMachines/jdk1.8.0_40.jdk/Contents/Home"

export SPARK_SCALA_VERSION="2.11"

export SPARK_MASTER_IP="192.168.1.102"

export SPARK_LOCAL_IP="192.168.1.102"

export SPARK_WORKER_MEMORY="2G"

export SPARK_WORKER_CORE="2"

因为编译的是 scala 2.11 版本,所以应在配置文件里指定 Spark 以scala 2.11进行启动。

接着就可以Standalone模式启动spark了:./sbin 大专栏  Learn Spark - 安装/start-all.sh

spark-submit

Spark 使用 spark-submit 部署执行程序, bin/spark-submit 可以轻松完成 Spark 应用程序在localStandaloneYARNMesos上的快捷部署。我们提交一个最简单的 WorldCount 程序,代码如下:

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23
package learnspark.intro

import org.apache.spark.{SparkContext, SparkConf}

object WordCount {

def main(args: Array[String]): Unit = {

println(args.length + " " + args.toList)

if (args.length < 2) {

println("run params: inputfile outputfile")

System.exit(1)

}

val inputFile = args(0)

val outputFile = args(1)

val conf = new SparkConf().setAppName("wordCount")

val sc = new SparkContext(conf)

val input = sc.textFile(inputFile)

val words = input.flatMap(_.split(' '))

val counts = words.map((_, 1)).reduceByKey { case (x, y) => x + y }

counts.saveAsTextFile(outputFile)

}

}

使用以下脚本提交程序到 Spark 执行:

1

2

3

4

5

6

7

8

9
#!/bin/sh

rm -rf /tmp/wordcount

$SPARK_HOME/bin/spark-submit 

--class learnspark.intro.WordCount 

--master "spark://192.168.1.102:7077" 

target/scala-2.11/learn-spark_2.11-0.0.1.jar 

$SPARK_HOME/README.md /tmp/wordcount
  • –class 指定要运行的class
  • –master 程序要运行的master
  • target/… 程序提交的jar包
  • inputAttr [outputAttr …] 程序执行参数

原文地址:https://www.cnblogs.com/liuzhongrong/p/11874845.html

时间: 2024-10-12 06:03:54

Learn Spark - 安装的相关文章

hadoop&spark安装(上)

硬件环境: hddcluster1 10.0.0.197 redhat7 hddcluster2 10.0.0.228 centos7  这台作为master hddcluster3 10.0.0.202 redhat7 hddcluster4 10.0.0.181 centos7 软件环境: 关闭所有防火墙firewall openssh-clients openssh-server java-1.8.0-openjdk java-1.8.0-openjdk-devel hadoop-2.7.

(转)Spark安装与学习

摘要:Spark是继Hadoop之后的新一代大数据分布式处理框架,由UC Berkeley的Matei Zaharia主导开发.我只能说是神一样的人物造就的神器,详情请猛击http://www.spark-project.org/ Created 2012-05-09 Modified 2012-08-13 1 Scala安装 当前,Spark最新版本是0.5,由于我写这篇文档时,版本还是0.4,因此本文下面的所有描述基于0.4版本. 不过淘宝的达人已经尝试了0.5,并写了相关安装文档在此htt

spark 安装部署

一.安装spark依赖的内容 1.JDK spark是由Scala语言编写的,但是运行的环境是jvm,所以需要安装JDK 编译过程:Python.java.Scala编写的代码 -> scala编译器编译解释,生成class文件 -> 由jvm负责执行class文件(与java代码执行一致) 2.scala 由于 spark是由Scala语言编写的,所以依赖Scala环境,且由Scala编写的执行代码也需要环境进行编译 3.配置SSH免密码登录 集群节点无密码访问,与安装Hadoop时一致 4

Alex 的 Hadoop 菜鸟教程: 第17课 Spark 安装以及使用教程

声明 本文基于Centos6.x + CDH 5.x 本文基于CSDN的markdown编辑器写成,csdn终于支持markdown了,高兴! Spark是什么 Spark是Apache的顶级项目.项目背景是 Hadoop 的 MapReduce 太挫太慢了,于是有人就做了Spark,目前Spark声称在内存中比Hadoop快100倍,在磁盘上比Hadoop快10倍. 安装Spark spark有5个组件 spark-core: spark核心包 spark-worker: spark-work

Spark安装:CentOS7 + JDK7 + Hadoop2.6 + Scala2.10.4

本文搭建环境为:Mac + Parallel Desktop + CentOS7 + JDK7 + Hadoop2.6 + Scala2.10.4-------------------------------------------------- 一.CentOS安装 ■ 安装完成后记得保存快照. ■ 环境准备 CentOS7下载:http://mirrors.163.com/centos/7/isos/x86_64/CentOS-7-x86_64-DVD-1511.iso. ■ Mac Par

Spark安装部署(local和standalone模式)

Spark运行的4中模式: Local Standalone Yarn Mesos 一.安装spark前期准备 1.安装java $ sudo tar -zxvf jdk-7u67-linux-x64.tar.gz -C /opt/service/ export JAVA_HOME=/opt/service/jdk1.7.0_67 export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH export CLASSPATH=.:$JAVA_HOME/l

Spark学习之Spark安装

Spark安装 spark运行环境 spark是Scala写的,运行在jvm上,运行环境为java7+ 如果使用Python的API ,需要使用Python2.6+或者Python3.4+ Spark1.6.2  -  Scala 2.10    Spark 2.0.0  -  Scala  2.11 Spark下载 下载地址:http://spark.apache.org/downloads.html 搭建spark,不需要Hadoop,如有Hadoop集群,可下载对应版本解压 Spark目录

Spark安装简介

1.简介 Spark 是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速,由加州大学伯克利分校 AMP 实验室 (Algorithms,Machines,and People Lab) 开发,可用来构建大型的.低延迟的数据分析应用程序.spark-sql还能提供比较完整的sql的功能,多表分析关联非常方便. 2.单机最简安装 从官网Spark上下载编译好的bin包(spark-1.3.0-bin-hadoop2.4.tgz). 解压安装 tar -zxvf spark-1.3.0-

Spark安装

spark的安装 先到官网下载安装包 注意第二项要选择和自己hadoop版本相匹配的spark版本,然后在第4项点击下载.若无图形界面,可用windows系统下载完成后传送到centos中. 安装spark sudo tar -zxf ~/spark-2.0.0/spark-2.0.0-bin-without-hadoop.tgz -C /usr/local/