spark入门

spark编译:
1、java安装(建议用jdk1.6)
2、编译命令
./make-distribution.sh --tgz -Phadoop-2.4 -Dhadoop.version=2.6.0 -Pyarn -DskipTests -Phive -Phive-thriftserver
spark启动:

├── bin
│   ├── beeline
│   ├── beeline.cmd
│   ├── compute-classpath.cmd
│   ├── compute-classpath.sh
│   ├── load-spark-env.sh
│   ├── pyspark
│   ├── pyspark2.cmd
│   ├── pyspark.cmd
│   ├── run-example
│   ├── run-example2.cmd
│   ├── run-example.cmd
│   ├── spark-class
│   ├── spark-class2.cmd
│   ├── spark-class.cmd
│   ├── spark-shell 交互式执行spark的命令
│   ├── spark-shell2.cmd
│   ├── spark-shell.cmd
│   ├── spark-sql
│   ├── spark-submit 此命令可以执行app,默认读取conf/spark-default.conf的配置
│   ├── spark-submit2.cmd
│   ├── spark-submit.cmd
│   ├── utils.sh
│   └── windows-utils.cmd
├── CHANGES.txt
├── conf
│   ├── fairscheduler.xml.template
│   ├── hadoop 保存hadoop的配置文件,名称自定义,在spark-env.sh里面设定hadoop的配置文件路径
│   ├── hive-site.xml spark和hive集成的时候,需要提供hive的配置文件,主要是hive的源数据库配置
│   ├── log4j.properties 日志的配置信息
│   ├── log4j.properties.template
│   ├── metrics.properties.template
│   ├── slaves slave的节点,每台服务器一行(ip地址)
│   ├── slaves.template
│   ├── spark-defaults.conf 此文件为spark-submit命令时默认读取的配置信息,用来配置当前app的各种参数
│   ├── spark-defaults.conf.template
│   ├── spark-env.sh spark启动的环境变量
│   ├── spark-env.sh.template
│   ├── spark-kafka.conf 个人自定义的配置文件,spark-submit 执行时用 --properties-file 参数制定,代替 spark-defaults.conf
│   └── spark-sql.conf 同spark-kafka.conf
├── data
│   └── mllib
├── ec2
│   ├── deploy.generic
│   ├── README
│   ├── spark-ec2
│   └── spark_ec2.py
├── examples
│   └── src
├── lib
│   ├── datanucleus-api-jdo-3.2.6.jar
│   ├── datanucleus-core-3.2.10.jar
│   ├── datanucleus-rdbms-3.2.9.jar
│   ├── spark-1.3.1-yarn-shuffle.jar
│   ├── spark-assembly-1.3.1-hadoop2.6.0.jar
│   ├── spark-examples-1.3.1-hadoop2.6.0.jar
│   └── tachyon-0.5.0-jar-with-dependencies.jar
└── sbin
├── slaves.sh
├── spark-config.sh
├── spark-daemon.sh
├── spark-daemons.sh
├── start-all.sh 启动当前master和所有的slaves
├── start-history-server.sh
├── start-master.sh 启动当前master
├── start-slave.sh 启动当前slaves
├── start-slaves.sh 启动所有的slave
├── start-thriftserver.sh
├── stop-all.sh 关闭当前master和所有slaves
├── stop-history-server.sh
├── stop-master.sh 关闭当前master
├── stop-slaves.sh 关闭所有slave
└── stop-thriftserver.sh

时间: 2024-11-10 13:51:48

spark入门的相关文章

Spark入门实战系列--8.Spark MLlib(上)--机器学习及SparkMLlib简介

[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 1.机器学习概念 1.1 机器学习的定义 在维基百科上对机器学习提出以下几种定义: l“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”. l“机器学习是对能通过经验自动改进的计算机算法的研究”. l“机器学习是用数据或以往的经验,以此优化计算机程序的性能标准.” 一种经常引用的英文定义是:A computer program is said

使用scala开发spark入门总结

使用scala开发spark入门总结 一.spark简单介绍 关于spark的介绍网上有很多,可以自行百度和google,这里只做简单介绍.推荐简单介绍连接:http://blog.jobbole.com/89446/ 1.    spark是什么? Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架.一般配合hadoop使用,可以增强hadoop的计算性能. 2.    Spark的优点有哪些? Sp

Spark入门(Python)

Hadoop是对大数据集进行分布式计算的标准工具,这也是为什么当你穿过机场时能看到”大数据(Big Data)”广告的原因.它已经成为大数据的操作系统,提供了包括工具和技巧在内的丰富生态系统,允许使用相对便宜的商业硬件集群进行超级计算机级别的计算.2003和2004年,两个来自Google的观点使Hadoop成为可能:一个分布式存储框架(Google文件系统),在Hadoop中被实现为HDFS:一个分布式计算框架(MapReduce). 这两个观点成为过去十年规模分析(scaling analy

Spark入门实战系列--2.Spark编译与部署(下)--Spark编译安装

[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 1.编译Spark Spark可以通过SBT和Maven两种方式进行编译,再通过make-distribution.sh脚本生成部署包.SBT编译需要安装git工具,而Maven安装则需要maven工具,两种方式均需要在联网下进行,通过比较发现SBT编译速度较慢(原因有可能是1.时间不一样,SBT是白天编译,Maven是深夜进行的,获取依赖包速度不同 2.maven下载大文件是多线程进行,而SBT是

Spark入门实战系列--7.Spark Streaming(下)--实时流计算Spark Streaming实战

[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 1.实例演示 1.1 流数据模拟器 1.1.1 流数据说明 在实例演示中模拟实际情况,需要源源不断地接入流数据,为了在演示过程中更接近真实环境将定义流数据模拟器.该模拟器主要功能:通过Socket方式监听指定的端口号,当外部程序通过该端口连接并请求数据时,模拟器将定时将指定的文件数据随机获取发送给外部程序. 1.1.2 模拟器代码 import java.io.{PrintWriter} impor

Spark入门实战系列--2.Spark编译与部署(中)--Hadoop编译安装

[注]该系列文章以及使用到安装包/測试数据 能够在<[倾情大奉送–Spark入门实战系列] (http://blog.csdn.net/yirenboy/article/details/47291765)>获取 1 编译Hadooop 1.1 搭建好开发环境 1.1.1 安装并设置maven 1.下载maven安装包.建议安装3.0以上版本号,本次安装选择的是maven3.0.5的二进制包,下载地址例如以下 http://mirror.bit.edu.cn/apache/maven/maven

Spark入门实战系列--9.Spark图计算GraphX介绍及实例

[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 1.GraphX介绍 1.1 GraphX应用背景 Spark GraphX是一个分布式图处理框架,它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求. 众所周知·,社交网络中人与人之间有很多关系链,例如Twitter.Facebook.微博和微信等,这些都是大数据产生的地方都需要图计算,现在的图处理基本都是分布式的图处理,而并非单机处理.Spark

Spark入门实战系列--5.Hive(上)--Hive介绍及部署

[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 1.Hive介绍 1.1 Hive介绍 Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据.它是Facebook 2008年8月开源的一个数据仓库框架,提供了类似于SQL语法的HQL语句作为数据访问接口,Hive有如下优缺点: l  优点: 1.Hive 使用类SQL 查询语法, 最大限度的实现了和SQL标准的兼容,大大降低了传统数据分析人员学习的曲线: 2.使用JDBC

Spark 入门(Python、Scala 版)

本文中,我们将首先讨论如何在本地机器上利用Spark进行简单分析.然后,将在入门级水平探索Spark,了解Spark是什么以及它如何工作(希望可以激发更多探索).最后两节将开始通过命令行与Spark进行交互,然后演示如何用Python写Spark应用,并作为Spark作业提交到集群上.同时也会提供相应的 Scala 版本. 1.设置Spark环境 在本机设置和运行Spark非常简单.你只需要下载一个预构建的包,只要你安装了Java 6+和Python 2.6+,就可以在Windows.Mac O

Spark入门实战系列--8.Spark MLlib(下)--机器学习库SparkMLlib实战

[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 1.MLlib实例 1.1 聚类实例 1.1.1 算法说明 聚类(Cluster analysis)有时也被翻译为簇类,其核心任务是:将一组目标object划分为若干个簇,每个簇之间的object尽可能相似,簇与簇之间的object尽可能相异.聚类算法是机器学习(或者说是数据挖掘更合适)中重要的一部分,除了最为简单的K-Means聚类算法外,比较常见的还有层次法(CURE.CHAMELEON等).网