Spark学习笔记之浅释

概述:

Spark是一个基于内存计算的开源集群计算系统,目的是让数据分析更加快速。

Spark非常小巧玲珑,由加州伯克利大学AMP实验室的小团队开发。使用的语言

是Scala,项目的core部分的代码只有63个Scala文件。(AMP实验室名字有点意思:

Algorithm Machine People,算法、机器、人)

Spark是一种与Hadoop相似的开源集群计算环境,但是两者之间还存在一些不同

之处,这些有用的不同之处使得Spark在某些工作负载方面表现得更加优越,换句话

说,Spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代

工作负载。

Spark是在Scala语言中实现的,它将Scala用作其应用程序框架。与Hadoop不同,

Spark和Scala能够紧密集成,其中的Scala可以像操作本地集合对象一样轻松地操作

分布式数据集。

Spark还引进了丰富的RDD(弹性分布式数据集)。RDD是分布在一组节点中的只

读对象集合。这些集合是弹性的,如果数据集一部分丢失,则可以对他们进行重建。

重建部分数据集的过程依赖于容错机制,该机制可以维护“血统”(即允许基于数

据衍生过程重建部分数据集的信息)。RDD被表示为一个Scala对象,并且可以从文

件中创建它;

总结:

1.Spark是一个开发库

2.任何能运行成功的库都可能成为Spark的一部分

3.通用,它可以和spark SQL,Spark Streaming,MLlib(machine leaning),Graphx无缝集成

它是一个平台,是一个通用的开发库

4.各个行业及专家的构思可集合至Spark,成为强大的API

Spark优势:

1.首先Spark是基于内存的计算

2.提供了支持DAG图的分布式并行计算框架,减少多次计算之间的中间结果IO开销

3.提供Cache机制来支持多次迭代计算或者数据共享,减少IO开销

4.RDD之间维护了血统关系,一旦RDD挂掉了,能通过父RDD自动重建保证了容错性

5.移动计算而非移动数据,RDD分区可以就近读取分布式文件系统中的数据块到各

个节点内存中进行计算

6.使用多线程池模型来减少task启动开销

7.shuffle过程中避免不必要的sort操作

8.使用容错的高可伸缩性的akka做为通讯框架

运行框架:

1.Hadoop的MapReduce框架平台YARN

2.Apache Mesos框架平台

3.Spark的Standalone框架平台

4.亚马逊的AWS平台

另,与Hadoop2.7.0一样,社区决定从Spark1.5将不再支持JDK1.6

JDK1.7的参考资料:

http://liujunjie51072.blog.163.com/blog/static/868916212009915105633843/

时间: 2024-08-25 06:16:17

Spark学习笔记之浅释的相关文章

Spark学习笔记之SparkRDD

Spark学习笔记之SparkRDD 一.   基本概念 RDD(resilient distributed datasets)弹性分布式数据集. 来自于两方面 ①   内存集合和外部存储系统 ②   通过转换来自于其他RDD,如map,filter等 2.创建操作(creation operation):RDD的创建由SparkContext来负责. 3.转换操作(transformation operation):将一个RDD通过一定操作转换为另一个RDD. 4.控制操作(control o

spark学习笔记总结-spark入门资料精化

Spark学习笔记 Spark简介 spark 可以很容易和yarn结合,直接调用HDFS.Hbase上面的数据,和hadoop结合.配置很容易. spark发展迅猛,框架比hadoop更加灵活实用.减少了延时处理,提高性能效率实用灵活性.也可以与hadoop切实相互结合. spark核心部分分为RDD.Spark SQL.Spark Streaming.MLlib.GraphX.Spark R等核心组件解决了很多的大数据问题,其完美的框架日受欢迎.其相应的生态环境包括zepplin等可视化方面

转 Android开发学习笔记:浅谈WebView

原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 .作者信息和本声明.否则将追究法律责任.http://liangruijun.blog.51cto.com/3061169/647456 WebView(网络视图)能加载显示网页,可以将其视为一个浏览器.它使用了WebKit渲染引擎加载显示网页,实现WebView有以下两种不同的方法: 第一种方法的步骤: 1.在要Activity中实例化WebView组件:WebView webView = new WebView(this); 2

Spark学习笔记——读写Hbase

1.首先在Hbase中建立一张表,名字为student 参考 Hbase学习笔记--基本CRUD操作 2.

Spark学习笔记总结-入门资料精化

Spark简介 spark 可以很容易和yarn结合,直接调用HDFS.Hbase上面的数据,和hadoop结合.配置很容易. spark发展迅猛,框架比hadoop更加灵活实用.减少了延时处理,提高性能效率实用灵活性.也可以与hadoop切实相互结合. spark核心部分分为RDD.Spark SQL.Spark Streaming.MLlib.GraphX.Spark R等核心组件解决了很多的大数据问题,其完美的框架日受欢迎.其相应的生态环境包括zepplin等可视化方面,正日益壮大.大型公

Spark学习笔记

Spark 阅读官方文档 Spark Quick Start Spark Programming Guide Spark SQL, DataFrames and Datasets Guide Cluster Mode Overview Spark Standalone Mode 重要的概念:resilient distributed dataset (RDD), a collection of elements partitioned across the nodes of the cluste

Spark学习笔记0

自学Spark已经有一段时间,之前遇到了很多阻力,从Scala语法,基本概念,源码编译,环境部署,开发环境只能自己慢慢尝试,几乎是一步一个跟头.当还在痛苦的读着源码时候,发现spark的版本还在不断的升级,新的东西越来越多,让人应接不暇.偶然间发现51CTO的相关资源,希望共享给同时Spark的学习者们,避免他们再走我走过的弯路.也希望开始将自己学习Spark的过程记录下来. 王家林的第一个中国梦:免费为全社会培养100万名优秀的大数据从业人员! 您可以通过王家林老师的微信号1861008685

Spark学习笔记总结-超级经典总结

Spark简介 spark 可以很容易和yarn结合,直接调用HDFS.Hbase上面的数据,和hadoop结合.配置很容易. spark发展迅猛,框架比hadoop更加灵活实用.减少了延时处理,提高性能效率实用灵活性.也可以与hadoop切实相互结合. spark核心部分分为RDD.Spark SQL.Spark Streaming.MLlib.GraphX.Spark R等核心组件解决了很多的大数据问题,其完美的框架日受欢迎.其相应的生态环境包括zepplin等可视化方面,正日益壮大.大型公

Spark学习笔记1:Application,Driver,Job,Task,Stage理解

看了spark的原始论文和相关资料,对spark中的一些经常用到的术语学习了一下,记录下. 1,Application application(应用)其实就是用spark-submit提交到spark的程序.比方说spark examples中的计算pi的SparkPi.一个application通常包含三部分:从数据源(比方说HDFS)取数据形成RDD,通过RDD的transformation和action进行计算,将结果输出到console或者外部存储(比方说collect收集输出到cons