spark入门

spark编译：
1、java安装（建议用jdk1.6）
2、编译命令
./make-distribution.sh --tgz -Phadoop-2.4 -Dhadoop.version=2.6.0 -Pyarn -DskipTests -Phive -Phive-thriftserver
spark启动：

├── bin
│   ├── beeline
│   ├── beeline.cmd
│   ├── compute-classpath.cmd
│   ├── compute-classpath.sh
│   ├── load-spark-env.sh
│   ├── pyspark
│   ├── pyspark2.cmd
│   ├── pyspark.cmd
│   ├── run-example
│   ├── run-example2.cmd
│   ├── run-example.cmd
│   ├── spark-class
│   ├── spark-class2.cmd
│   ├── spark-class.cmd
│   ├── spark-shell 交互式执行spark的命令
│   ├── spark-shell2.cmd
│   ├── spark-shell.cmd
│   ├── spark-sql
│   ├── spark-submit 此命令可以执行app，默认读取conf/spark-default.conf的配置
│   ├── spark-submit2.cmd
│   ├── spark-submit.cmd
│   ├── utils.sh
│   └── windows-utils.cmd
├── CHANGES.txt
├── conf
│   ├── fairscheduler.xml.template
│   ├── hadoop 保存hadoop的配置文件，名称自定义，在spark-env.sh里面设定hadoop的配置文件路径
│   ├── hive-site.xml spark和hive集成的时候，需要提供hive的配置文件，主要是hive的源数据库配置
│   ├── log4j.properties 日志的配置信息
│   ├── log4j.properties.template
│   ├── metrics.properties.template
│   ├── slaves slave的节点，每台服务器一行（ip地址）
│   ├── slaves.template
│   ├── spark-defaults.conf 此文件为spark-submit命令时默认读取的配置信息，用来配置当前app的各种参数
│   ├── spark-defaults.conf.template
│   ├── spark-env.sh spark启动的环境变量
│   ├── spark-env.sh.template
│   ├── spark-kafka.conf 个人自定义的配置文件，spark-submit 执行时用 --properties-file 参数制定，代替 spark-defaults.conf
│   └── spark-sql.conf 同spark-kafka.conf
├── data
│   └── mllib
├── ec2
│   ├── deploy.generic
│   ├── README
│   ├── spark-ec2
│   └── spark_ec2.py
├── examples
│   └── src
├── lib
│   ├── datanucleus-api-jdo-3.2.6.jar
│   ├── datanucleus-core-3.2.10.jar
│   ├── datanucleus-rdbms-3.2.9.jar
│   ├── spark-1.3.1-yarn-shuffle.jar
│   ├── spark-assembly-1.3.1-hadoop2.6.0.jar
│   ├── spark-examples-1.3.1-hadoop2.6.0.jar
│   └── tachyon-0.5.0-jar-with-dependencies.jar
└── sbin
├── slaves.sh
├── spark-config.sh
├── spark-daemon.sh
├── spark-daemons.sh
├── start-all.sh 启动当前master和所有的slaves
├── start-history-server.sh
├── start-master.sh 启动当前master
├── start-slave.sh 启动当前slaves
├── start-slaves.sh 启动所有的slave
├── start-thriftserver.sh
├── stop-all.sh 关闭当前master和所有slaves
├── stop-history-server.sh
├── stop-master.sh 关闭当前master
├── stop-slaves.sh 关闭所有slave
└── stop-thriftserver.sh

时间： 2024-11-10 13:51:48

spark入门

spark入门的相关文章

Spark入门实战系列--8.Spark MLlib（上）--机器学习及SparkMLlib简介

使用scala开发spark入门总结

Spark入门(Python)

Spark入门实战系列--2.Spark编译与部署（下）--Spark编译安装

Spark入门实战系列--7.Spark Streaming（下）--实时流计算Spark Streaming实战

Spark入门实战系列--2.Spark编译与部署（中）--Hadoop编译安装

Spark入门实战系列--9.Spark图计算GraphX介绍及实例

Spark入门实战系列--5.Hive（上）--Hive介绍及部署

Spark 入门（Python、Scala 版）

Spark入门实战系列--8.Spark MLlib（下）--机器学习库SparkMLlib实战