Spark学习笔记之浅释

概述：

Spark是一个基于内存计算的开源集群计算系统，目的是让数据分析更加快速。

Spark非常小巧玲珑，由加州伯克利大学AMP实验室的小团队开发。使用的语言

是Scala，项目的core部分的代码只有63个Scala文件。（AMP实验室名字有点意思：

Algorithm Machine People，算法、机器、人）

Spark是一种与Hadoop相似的开源集群计算环境，但是两者之间还存在一些不同

之处，这些有用的不同之处使得Spark在某些工作负载方面表现得更加优越，换句话

说，Spark启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代

工作负载。

Spark是在Scala语言中实现的，它将Scala用作其应用程序框架。与Hadoop不同，

Spark和Scala能够紧密集成，其中的Scala可以像操作本地集合对象一样轻松地操作

分布式数据集。

Spark还引进了丰富的RDD（弹性分布式数据集）。RDD是分布在一组节点中的只

读对象集合。这些集合是弹性的，如果数据集一部分丢失，则可以对他们进行重建。

重建部分数据集的过程依赖于容错机制，该机制可以维护“血统”（即允许基于数

据衍生过程重建部分数据集的信息）。RDD被表示为一个Scala对象，并且可以从文

件中创建它；

总结：

1.Spark是一个开发库

2.任何能运行成功的库都可能成为Spark的一部分

3.通用，它可以和spark SQL,Spark Streaming,MLlib(machine leaning),Graphx无缝集成

它是一个平台，是一个通用的开发库

4.各个行业及专家的构思可集合至Spark，成为强大的API

Spark优势：

1.首先Spark是基于内存的计算

2.提供了支持DAG图的分布式并行计算框架，减少多次计算之间的中间结果IO开销

3.提供Cache机制来支持多次迭代计算或者数据共享，减少IO开销

4.RDD之间维护了血统关系，一旦RDD挂掉了，能通过父RDD自动重建保证了容错性

5.移动计算而非移动数据，RDD分区可以就近读取分布式文件系统中的数据块到各

个节点内存中进行计算

6.使用多线程池模型来减少task启动开销

7.shuffle过程中避免不必要的sort操作

8.使用容错的高可伸缩性的akka做为通讯框架

运行框架：

1.Hadoop的MapReduce框架平台YARN

2.Apache Mesos框架平台

3.Spark的Standalone框架平台

4.亚马逊的AWS平台

另，与Hadoop2.7.0一样，社区决定从Spark1.5将不再支持JDK1.6

JDK1.7的参考资料：

http://liujunjie51072.blog.163.com/blog/static/868916212009915105633843/

时间： 2024-08-25 06:16:17

Spark学习笔记之浅释的相关文章

Spark学习笔记之SparkRDD

Spark学习笔记之SparkRDD 一. 基本概念 RDD(resilient distributed datasets)弹性分布式数据集. 来自于两方面 ① 内存集合和外部存储系统 ② 通过转换来自于其他RDD,如map,filter等 2.创建操作(creation operation):RDD的创建由SparkContext来负责. 3.转换操作(transformation operation):将一个RDD通过一定操作转换为另一个RDD. 4.控制操作(control o

spark学习笔记总结-spark入门资料精化

Spark学习笔记 Spark简介 spark 可以很容易和yarn结合,直接调用HDFS.Hbase上面的数据,和hadoop结合.配置很容易. spark发展迅猛,框架比hadoop更加灵活实用.减少了延时处理,提高性能效率实用灵活性.也可以与hadoop切实相互结合. spark核心部分分为RDD.Spark SQL.Spark Streaming.MLlib.GraphX.Spark R等核心组件解决了很多的大数据问题,其完美的框架日受欢迎.其相应的生态环境包括zepplin等可视化方面

转 Android开发学习笔记：浅谈WebView

原创作品,允许转载,转载时请务必以超链接形式标明文章原始出处 .作者信息和本声明.否则将追究法律责任.http://liangruijun.blog.51cto.com/3061169/647456 WebView(网络视图)能加载显示网页,可以将其视为一个浏览器.它使用了WebKit渲染引擎加载显示网页,实现WebView有以下两种不同的方法: 第一种方法的步骤: 1.在要Activity中实例化WebView组件:WebView webView = new WebView(this); 2

Spark学习笔记——读写Hbase

1.首先在Hbase中建立一张表,名字为student 参考 Hbase学习笔记--基本CRUD操作 2.

Spark学习笔记总结-入门资料精化

Spark简介 spark 可以很容易和yarn结合,直接调用HDFS.Hbase上面的数据,和hadoop结合.配置很容易. spark发展迅猛,框架比hadoop更加灵活实用.减少了延时处理,提高性能效率实用灵活性.也可以与hadoop切实相互结合. spark核心部分分为RDD.Spark SQL.Spark Streaming.MLlib.GraphX.Spark R等核心组件解决了很多的大数据问题,其完美的框架日受欢迎.其相应的生态环境包括zepplin等可视化方面,正日益壮大.大型公

Spark学习笔记

Spark 阅读官方文档 Spark Quick Start Spark Programming Guide Spark SQL, DataFrames and Datasets Guide Cluster Mode Overview Spark Standalone Mode 重要的概念:resilient distributed dataset (RDD), a collection of elements partitioned across the nodes of the cluste

Spark学习笔记0

自学Spark已经有一段时间,之前遇到了很多阻力,从Scala语法,基本概念,源码编译,环境部署,开发环境只能自己慢慢尝试,几乎是一步一个跟头.当还在痛苦的读着源码时候,发现spark的版本还在不断的升级,新的东西越来越多,让人应接不暇.偶然间发现51CTO的相关资源,希望共享给同时Spark的学习者们,避免他们再走我走过的弯路.也希望开始将自己学习Spark的过程记录下来. 王家林的第一个中国梦:免费为全社会培养100万名优秀的大数据从业人员! 您可以通过王家林老师的微信号1861008685

Spark学习笔记总结-超级经典总结

Spark学习笔记1：Application，Driver，Job，Task，Stage理解

看了spark的原始论文和相关资料,对spark中的一些经常用到的术语学习了一下,记录下. 1,Application application(应用)其实就是用spark-submit提交到spark的程序.比方说spark examples中的计算pi的SparkPi.一个application通常包含三部分:从数据源(比方说HDFS)取数据形成RDD,通过RDD的transformation和action进行计算,将结果输出到console或者外部存储(比方说collect收集输出到cons