spark基础

1 spark与mapreduce对比

Spark比Mapreduce更加高效,主要原因是:

1内存计算引擎,提供Cache机制来支持需要反复迭代计算或者多次数据共享,减少数据读取的IO开销;

2DAG引擎,减少多次计算之间中间结果写到HDFS的开销;

3使用多线程池模型来减少task启动开稍,shuffle过程中避免不必要的sort操作以及减少磁盘IO操作.

2 RDD

RDD:Resilient Distributed Datasets,弹性分布式数据集

定义:分布在集群中的只读对象集合。一个RDD可由多个Partition构成,分散存储在多个节点中。

弹性:可以存储在磁盘或内存中(多种存储级别)。一个RDD可以部分存在内存中,部分存在磁盘中。

转换:通过并行“转换”操作构造。例如一个RDD中所有数加1生成一个新的RDD。
容错性:失效后自动重构。记住各个RDD之间的转换关系,当一个RDD丢失后可由其他RDD推出丢失的RDD。

RDD与partition,节点的关系:

时间: 2024-10-08 12:27:59

spark基础的相关文章

最全的Spark基础知识解答

最全的Spark基础知识解答 时间:2016-12-12 12:00:50      阅读:19      评论:0      收藏:0      [点我收藏] 原文:http://www.cnblogs.com/sanyuanempire/p/6163732.html 一. Spark基础知识 1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架. dfsSpark基于mapreduce算法实现的分布式计算,拥有HadoopMa

【原创 Hadoop&Spark 动手实践 5】Spark 基础入门,集群搭建以及Spark Shell

Spark 基础入门,集群搭建以及Spark Shell 主要借助Spark基础的PPT,再加上实际的动手操作来加强概念的理解和实践. Spark 安装部署 理论已经了解的差不多了,接下来是实际动手实验: 练习1 利用Spark Shell(本机模式) 完成WordCount spark-shell 进行Spark-shell本机模式 第一步:通过文件方式导入数据 scala> val rdd1 = sc.textFile("file:///tmp/wordcount.txt")

Spark基础与Java Api介绍

原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/3832405.html  一.Spark简介 1.什么是Spark 发源于AMPLab实验室的分布式内存计算平台,它克服了MapReduce在迭代式计算和交互式计算方面的不足. 相比于MapReduce,Spark能充分利用内存资源提高计算效率. 2.Spark计算框架 Driver程序启动很多workers,然后workers在(分布式)文件系统中读取数据后转化为RDD(弹性分布式数据集),最后对RD

Spark 基础操作

1. Spark 基础 2. Spark Core 3. Spark SQL 4. Spark Streaming 5. Spark 内核机制 6. Spark 性能调优 1. Spark 基础 1.1 Spark 中的相应组件 1.2 Standalone 模式安装 // 1. 准备安装包(见下方参考资料): spark-2.1.3-bin-hadoop2.7.tgz // 2. 修改配置文件 // 2.1 spark-env.sh.template mv spark-env.sh.templ

spark基础知识

1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架. dfsSpark基于mapreduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法. 2.Spark与Hadoop的对比(Spark的优势) 1.Spark的中间数据放到内存

Spark入门三部曲之第一步Spark基础知识

Spark运行环境 Spark 是Scala写的, 运行在JVM上.所以运行环境是Java6或者以上. 如果想要使用 Python API,需要安装Python 解释器2.6版本或者以上. 目前Spark(1.2.0版本) 与Python 3不兼容. Spark下载 下载地址:http://spark.apache.org/downloads.html,选择Pre-built for Hadoop 2.4 and later 这个包,点击直接下载,这会下载一个spark-1.2.0-bin-ha

Spark基础-scala学习(三)

面向对象编程之Trait trait基础知识 将trait作为接口使用 在trait中定义具体方法 在trait中定义具体字段 在trait中定义抽象字段 trait高级知识 为实例对象混入trait trait调用链 在trait中覆盖抽象方法 混合使用trait的具体方法和抽象方法 trait的构造机制 trati字段的初始化 让trait继承类 将trait作为接口使用 trait作为接口,和java中的接口非常类似 在triat中可以定义抽象方法,就与抽象类中的抽象方法一样,只要不给出方

Spark基础概况

最近本人对各种分布式计算平台研究的比较火热,上周的时间简单了了解了Storm的用法,今天马不停蹄的开始了新的学习.同样是非常流行的分布式平台,Spark,跟Hadoop属于同类型的.Spark和Storm一样,作为最近才刚刚开源出来的一个项目,学习的资料相当少,大家都还在学习阶段,所以,我目前的学习的情况也只是限于比较粗糙的学习. Spark是一个开源的通用并行分布式计算框架,由加州大学伯克利分校的AMP实验室开发,支持内存计算,(Spark也是以此出名的),多迭代批量处理,即席查询,流处理,和

spark基础---->spark的第一个程序

这里面我们介绍一下spark的安装,并通过一个python的例子来简单的体会一下spark的使用. spark的安装与使用 安装环境:mac 10.13.6,spark版本:2.3.1,python版本:3.6.5 一.在mac上面安装spark和pyspark,可以使用brew包管理器安装.直接运行命令 brew install apache-spark pip install pyspark 二.通过start-master启动我们的集群 然后我们访问:http://localhost:80