spark编译:
1、java安装(建议用jdk1.6)
2、编译命令
./make-distribution.sh --tgz -Phadoop-2.4 -Dhadoop.version=2.6.0 -Pyarn -DskipTests -Phive -Phive-thriftserver
spark启动:
├── bin
│ ├── beeline
│ ├── beeline.cmd
│ ├── compute-classpath.cmd
│ ├── compute-classpath.sh
│ ├── load-spark-env.sh
│ ├── pyspark
│ ├── pyspark2.cmd
│ ├── pyspark.cmd
│ ├── run-example
│ ├── run-example2.cmd
│ ├── run-example.cmd
│ ├── spark-class
│ ├── spark-class2.cmd
│ ├── spark-class.cmd
│ ├── spark-shell 交互式执行spark的命令
│ ├── spark-shell2.cmd
│ ├── spark-shell.cmd
│ ├── spark-sql
│ ├── spark-submit 此命令可以执行app,默认读取conf/spark-default.conf的配置
│ ├── spark-submit2.cmd
│ ├── spark-submit.cmd
│ ├── utils.sh
│ └── windows-utils.cmd
├── CHANGES.txt
├── conf
│ ├── fairscheduler.xml.template
│ ├── hadoop 保存hadoop的配置文件,名称自定义,在spark-env.sh里面设定hadoop的配置文件路径
│ ├── hive-site.xml spark和hive集成的时候,需要提供hive的配置文件,主要是hive的源数据库配置
│ ├── log4j.properties 日志的配置信息
│ ├── log4j.properties.template
│ ├── metrics.properties.template
│ ├── slaves slave的节点,每台服务器一行(ip地址)
│ ├── slaves.template
│ ├── spark-defaults.conf 此文件为spark-submit命令时默认读取的配置信息,用来配置当前app的各种参数
│ ├── spark-defaults.conf.template
│ ├── spark-env.sh spark启动的环境变量
│ ├── spark-env.sh.template
│ ├── spark-kafka.conf 个人自定义的配置文件,spark-submit 执行时用 --properties-file 参数制定,代替 spark-defaults.conf
│ └── spark-sql.conf 同spark-kafka.conf
├── data
│ └── mllib
├── ec2
│ ├── deploy.generic
│ ├── README
│ ├── spark-ec2
│ └── spark_ec2.py
├── examples
│ └── src
├── lib
│ ├── datanucleus-api-jdo-3.2.6.jar
│ ├── datanucleus-core-3.2.10.jar
│ ├── datanucleus-rdbms-3.2.9.jar
│ ├── spark-1.3.1-yarn-shuffle.jar
│ ├── spark-assembly-1.3.1-hadoop2.6.0.jar
│ ├── spark-examples-1.3.1-hadoop2.6.0.jar
│ └── tachyon-0.5.0-jar-with-dependencies.jar
└── sbin
├── slaves.sh
├── spark-config.sh
├── spark-daemon.sh
├── spark-daemons.sh
├── start-all.sh 启动当前master和所有的slaves
├── start-history-server.sh
├── start-master.sh 启动当前master
├── start-slave.sh 启动当前slaves
├── start-slaves.sh 启动所有的slave
├── start-thriftserver.sh
├── stop-all.sh 关闭当前master和所有slaves
├── stop-history-server.sh
├── stop-master.sh 关闭当前master
├── stop-slaves.sh 关闭所有slave
└── stop-thriftserver.sh