spark、sparkR部署

1、配置java环境

tar -zxvf jdk-8u77-linux-x64.tar.gz -C /opt/java/

vi /etc/profile

export JAVA_HOME=/opt/java/jdk1.8.0_77
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:{JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

source /etc/profile

2、安装R

我们希望能够使用R语言编写Spark程序，在本地安装R解释器

添加数据源（本机为ubuntu12.04选trusty）

deb http://mirror.bjtu.edu.cn/cran/bin/linux/ubuntu trusty/

sudo apt-get install r-base-core=3.1.3-1trusty

3、安装hadoop

wget http://apache.claz.org/hadoop/common/hadoop-2.6.0/hadoop-2.6.0.tar.gz

下载完成解压后修改配置文件，编辑 /etc/profile 、hadoop-env.sh文件、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml修改完成后初始化、启动

./bin/hdfs namenode -format

./sbin/start-all.sh

jps

4、安装scala

解压安装并配置环境变量，安装完成可以查看版本信息

5、安装spark

解压后设置环境变量

    export SPARK_HOME=/opt/spark-1.4.1-bin-hadoop2.6
    export PATH=$SPARK_HOME/bin:$PATH

在conf目录下复制并重命名spark-env.sh.template为spark-env.sh后添加

export JAVA_HOME=your java home
export SCALA_HOME=your scala home
export SPARK_MASTER_IP=TMaster
export SPARK_WORKER_MEMORY=4G

启动并测试：

./sbin/start-all.sh

./bin/run-example SparkPi

6、启动sparkR ：

./bin/sparkR

7、SparkR进行行数统计

lines<-SparkR:::textFile(sc,"README.md")

count(lines)

时间： 2024-10-16 12:08:02

spark、sparkR部署的相关文章

Spark job 部署模式

Spark job 的部署有两种模式,Client && Cluster spark-submit .. --deploy-mode client | cluster [上传 Jar 包] [[email protected] ~]$ hdfs dfs -put myspark.jar data [Client] 默认值,Driver 运行在 Client 端主机上. spark-submit --class com.share.scala.mr.TaggenCluster --maste

【待补充】Spark 集群模式 && Spark Job 部署模式

0. 说明 Spark 集群模式 && Spark Job 部署模式 1. Spark 集群模式 [ Local ] 使用一个 JVM 模拟 Spark 集群 [ Standalone ] 启动 master + worker 进程 [ mesos ] -- [ Yarn ] -- 2. Spark Job 部署模式 [ Client ] Driver 程序运行在 Client 端. [ Cluster ] Driver 程序运行在某个 worker 上. spark-shell 只能以

Spark安装部署（local和standalone模式）

Spark运行的4中模式: Local Standalone Yarn Mesos 一.安装spark前期准备 1.安装java $ sudo tar -zxvf jdk-7u67-linux-x64.tar.gz -C /opt/service/ export JAVA_HOME=/opt/service/jdk1.7.0_67 export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH export CLASSPATH=.:$JAVA_HOME/l

Spark cluster 部署

Spark 框架 Spark与Storm的对比对于Storm来说:1.建议在那种需要纯实时,不能忍受1秒以上延迟的场景下使用,比如实时金融系统,要求纯实时进行金融交易和分析2.此外,如果对于实时计算的功能中,要求可靠的事务机制和可靠性机制,即数据的处理完全精准,一条也不能多,一条也不能少,也可以考虑使用Storm3.如果还需要针对高峰低峰时间段,动态调整实时计算程序的并行度,以最大限度利用集群资源(通常是在小型公司,集群资源紧张的情况),也可以考虑用Storm4.如果一个大数据应用系统,它就是纯

spark的部署方式

一直以为spark区分几种集群的模式是由配置更改而改变. 经过使用发现,区分这几种模式的在于启动命令时指定的master. 现在保持我的配置文件不变. #公共配置 export SCALA_HOME=/usr/local/scala/ export JAVA_HOME=/usr/lib/jvm/java-1.7.0-openjdk-1.7.0.65.x86_64/ export SPARK_LOCAL_DIRS=/usr/local/spark-1.5.1/ export SPARK_CONF_

运维系列：02、Spark的部署方式

单机运行 Standalone 使用Spark本身提供的资源管理器,可以直接运行 Yarn 提供运行spark应用的jar包 Mesos 另一种资源管理系统 Amazon EC2 / ElasticMapReduce 安装工具: Chef

spark安装部署

spark是由Scala语言编写的,但是运行的环境是jvm,所以需要安装JDK 编译过程:Python.java.Scala编写的代码 -> scala编译器编译解释,生成class文件 -> 由jvm负责执行class文件(与java代码执行一致) 由于 spark是由Scala语言编写的,所以依赖Scala环境,且由Scala编写的执行代码也需要环境进行编译. hdfs是作为spark的持久层,所以需要安装Hadoop,同时如果需要配置spark on yarn,则Hadoop需要安装ya

spark 安装部署

一.安装spark依赖的内容 1.JDK spark是由Scala语言编写的,但是运行的环境是jvm,所以需要安装JDK 编译过程:Python.java.Scala编写的代码 -> scala编译器编译解释,生成class文件 -> 由jvm负责执行class文件(与java代码执行一致) 2.scala 由于 spark是由Scala语言编写的,所以依赖Scala环境,且由Scala编写的执行代码也需要环境进行编译 3.配置SSH免密码登录集群节点无密码访问,与安装Hadoop时一致 4

Mac spark 单机部署

因为应用需要开始学习数据处理技术,网上多使用spark,随大流也选用spark (spark性能是hadoop的100倍,我也是道听途说,没有亲测.) 1.ssh免密登录配置 Mac 自带ssh 不需安装,只需要生成秘要并放入秘要文件中即可生成秘要文件: ssh-keygen -t rsa第一个输入提示是生成文件名可以直接回车使用默认的文件名,如果默认文件名已经有文件存在会有提示是否覆盖,根据提示输入yes即可覆盖原有文件.紧接着提示输入密码和确认密码.生成的文件默认在~/.ssh/目录中,