安装配置
hosts配置:
用户:
useradd spark
1、SSH无密码登录
2、JDK
3、安装Scala 2.10.4
4、安装配置Spark
4.1、解压与权限
chown -R spark:spark /opt/spark
4.2、配置worker
vi conf/slaves
ES122
ES123
ES124
4.3、配置spark-env.sh
cp conf/spark-env.sh.template conf/spark-env.sh
vi conf/spark-env.sh
export SPARK_MASTER_IP=ES122
export SPARK_MASTER_PORT=7077
export SPARK_WORKER_CORES=4
export SPARK_WORKER_INSTANCES=1
export SPARK_WORKER_MEMORY=6g
注:机器配置为CPU为4核,内存8G
4.4、配置SPARK_HOME
vi /etc/profile
#spark
export SPARK_HOME=/opt/spark
export PATH=$SPARK_HOME/bin:$PATH
source /etc/profile
5、启动
5.1、不用sbin脚本的方式
启动Worker
./bin/spark-class org.apache.spark.deploy.worker.Worker spark://IP:PORT
5.2、启动集群
在master上
su spark
cd /opt/spark
sbin/start-all.sh
6、测试
提交Application:
bin/spark-submit --class org.hansight.spark.examples.SogouQTotal--master spark://es122:7077/opt/examples-0.0.1-SNAPSHOT.jar
7:启动spark-shell
spark-shell 是一个spark application,运行时需要向资源管理器申请资源,如standalone spark、YARN、Mesos。本例向standalone spark申请资源,所以在运行spark-shell时需要指向申请资源的standalone spark集群信息,其参数为MASTER。
如果未在spark-env.sh中申明MASTER,则使用命令MASTER=spark://cdh1:7077 bin/spark-shell启动;
如果已经在spark-env.sh中申明MASTER,则可以直接用bin/spark-shell启动。
由于spark-shell缺省的情况下,会申请所有的CPU资源
// TODO HA
http://spark.apache.org/docs/latest/spark-standalone.html