spark配置（1）

Hadoop 安装好之后，开始安装 Spark。

环境：ubuntu16.04,hadoop 2.7.2

选择spark1.6.1，基于hadoop2.6的预编译版本。官网：http://spark.apache.org/downloads.html

检查：


md5sum spark-1.6.1-bin-hadoop2.6.tgz

下载后，执行如下命令进行安装：


sudo tar -zxf ~/下载/spark-1.6.0-bin-without-hadoop.tgz -C /usr/local/
cd /usr/local
sudo mv ./spark-1.6.0-bin-without-hadoop/ ./spark
sudo chown -R hadoop:hadoop ./spark          # 此处的 hadoop 为你的用户名

安装后，需要在 ./conf/spark-env.sh 中修改 Spark 的 Classpath，执行如下命令拷贝一个配置文件：


cd /usr/local/spark
cp ./conf/spark-env.sh.template ./conf/spark-env.sh

编辑 ./conf/spark-env.sh（vim ./conf/spark-env.sh），在最后面加上如下一行：


export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

来自为知笔记(Wiz)

时间： 2024-10-12 09:29:48

spark配置（1）的相关文章

Spark官方文档: Spark Configuration（Spark配置）

Spark官方文档: Spark Configuration(Spark配置) Spark主要提供三种位置配置系统: 环境变量:用来启动Spark workers,可以设置在你的驱动程序或者conf/spark-env.sh 脚本中: java系统性能:可以控制内部的配置参数,两种设置方法: 编程的方式(程序中在创建SparkContext之前,使用System.setProperty("xx","xxx")语句设置相应系统属性值): 在conf/spark-env

关于yarn的spark配置属性

spark1.2.0 These are configs that are specific to Spark on YARN Property Name Default Meaning spark.yarn.applicationMaster.waitTries 10 ApplicationMaster 链接Spark master和SparkContext初始化的尝试次数 spark.yarn.submit.file.replication 3 上传到HDFS上的Spark ja

spark配置和word-count

Spark ------------ 快如闪电集群计算引擎. 应用于大规模数据处理快速通用引擎. 内存计算. [Speed] 计算速度是hadoop的100x. Spark有高级DAG(Direct acycle graph,有向无环图)执行引擎. [易于使用] 使用java,scala,python,R,SQL编写App. 提供了80+高级算子,能够轻松构建并行应用. 也可以使用scala,python,r的shell进行交互式操作 [通用性] 对SQL,流计算,复杂分析进行组合应用. spa

ubuntu下hadoop,spark配置

转载来自:http://www.cnblogs.com/spark-china/p/3941878.html 在VMWare 中准备第二.第三台运行Ubuntu系统的机器: 在VMWare中构建第二.三台运行Ubuntu的机器和构建第一台机器完全一样,再次不在赘述.. 与安装第一台Ubuntu机器不同的几点是: 第一点:我们把第二.三台Ubuntu机器命名为了Slave1.Slave2,如下图所示: 创建完的VMware中就有三台虚拟机了: 第二点:为了简化Hadoop的配置,保持最小化的H

spark配置详解

对付看把到这里格式变化太大了,懒得调整了,这是大概spark1.5版本时候的一些参数默认值,现在2.x会有变化这些皆可在 spark-default.conf配置,或者部分可在 sparkconf().set设置应用程序属性 |--------------------------------------------------------------------------------------------| 属性名称

hadoop生态搭建（3节点）-10.spark配置

# https://www.scala-lang.org/download/2.12.4.html# ==================================================================安装 scala tar -zxvf ~/scala-2.12.4.tgz -C /usr/local rm –r ~/scala-2.12.4.tgz # http://archive.apache.org/dist/spark/spark-2.3.0/ # ==

Spark配置参数

以下是整理的Spark中的一些配置参数,官方文档请参考Spark Configuration. Spark提供三个位置用来配置系统: Spark属性:控制大部分的应用程序参数,可以用SparkConf对象或者Java系统属性设置环境变量:可以通过每个节点的conf/spark-env.sh脚本设置.例如IP地址.端口等信息日志配置:可以通过log4j.properties配置 Spark属性 Spark属性控制大部分的应用程序设置,并且为每个应用程序分别配置它.这些属性可以直接在SparkC

spark 2.0.0集群安装与hive on spark配置

1. 环境准备: JDK1.8 hive 2.3.4 hadoop 2.7.3 hbase 1.3.3 scala 2.11.12 mysql5.7 2. 下载spark2.0.0 cd /home/worksapce/software wget https://archive.apache.org/dist/spark/spark-2.0.0/spark-2.0.0-bin-hadoop2.7.tgz tar -xzvf spark-2.0.0-bin-hadoop2.7.tgz mv spa

Spark配置

解压和重命名文件 tar -zxvf spark-2.2.0-bin-hadoop2.7.tgz mkdir /opt/spark mv spark-2.2.0-bin-hadoop2.7 /opt/spark/spark2.2 进入配置文件目录 cd /opt/spark/spark2.2/conf/ cp spark-env.sh.template spark-env.sh 编辑 spark-env.sh 在第二行空白处添加信息 vim spark-env.sh export SPARK_D

Spark源码(1) Spark配置

写熟悉的第一句代码 val conf = new SparkConf().setAppName("WordCount")点击SparkConf() ,发现 private val settings = new ConcurrentHashMap[String, String]() 可见所有配置都是以map[String,String]定义的 //即loadDefaults == truedef this() = this(true)//if (loadDefaults) { //加载