Spark3000门徒第14课spark RDD解密总结

今晚听了王家林老师的第14课spark RDD解密，课堂笔记如下：

Spark是基于工作集的应用抽象，RDD：Resillient Distributed Dataset是基于工作集的，spark可以对结果重用。

位置感知：spark比hadoop更精致。

RDD是lazy的，是分布式函数式编程的抽象，RDD可以看做一个只读的List或者Array。产生的中间结果怎么办? 不能让
他立即计算，采用Lazy级别，只对数据处理做标记。所以RDD操作是有向的，链式的,所以Stage有1000个步骤，不需要999个中间结果，默认只产生一次结果。数据量越大，计算步骤越多，优势更明显。

protected def getPartitions: Array[Partition]

/*** :: DeveloperApi ::
* Implemented by subclasses to compute a given partition.
*/
@DeveloperApi
def compute(split: Partition, context: TaskContext): Iterator[T]

这样所有RDD操作返回一个迭代器，这样后续框架可以无缝集成，用迭代器来遍历结果就可以了，不需要知

道具体结构。

RDD缺陷：
不支持细粒度的更新操作以及增量迭代计算

后续课程可以参照新浪微博王家林_DT大数据梦工厂：http://weibo.com/ilovepains

王家林中国Spark第一人,微信公共号DT_Spark

转发请写明出处。

时间： 2024-12-15 01:54:53

Spark3000门徒第14课spark RDD解密总结的相关文章

Spark3000门徒第七课Spark运行原理及RDD解密总结

今晚听了王家林老师的第七课Spark运行原理及RDD解密,课后作业是:spark基本原理,我的总结如下: 1 spark是分布式基于内存特别适合于迭代计算的计算框架 2 mapReduce就两个阶段map和reduce,而spark是不断地迭代计算,更加灵活更加强大,容易构造复杂算法. 3 spark不能取代hive,hive做数据仓库存储,spark sql只是取代hive的计算引擎 4 spark中间数据可以在内存也可以在磁盘 5 partition是一个数据集合 6 注意:初学者执行多

Spark3000门徒第13课Spark内核架构解密总结

昨晚听了王家林老师的第13课Spark内核架构解密,课堂笔记如下: executor中线程池并发执行和复用,Spark executor, backed by a threadpool to run tasks. 默认一个work为一个Application只开启一个executor.一个worker里executor是多点好还是少点好,看具体情况. Worker:管理当前Node机器资源,并接受Master的指令来分配具体的计算资源Executor(使用ExecutorRunner 在新的进

Spark3000门徒第12课Spark HA实战总结

今晚听了王家林老师的第12课Spark HA实战,课堂笔记以及作业如下: Spark HA需要安装zookeeper,推荐稳定版3.4.6. 1.下载zookeeper3.4.6,2.配置环境变量3.创建data logs4.vi conf/zoo.cfg5 data目录中创建myid spark-env.sh 配置HA : export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zo

第14课：Spark RDD解密

以下为Spark RDD解密课程学习心得: 在介绍Spark RDD之前,先简单的说下Hadoop MapReduce,它是基于数据流的方式进行计算,从物理存储上加载数据,然后操作数据, 最后写入到物理存储设备上,这样的模式会产生大量的中间结果. MapReduce不适合场景:1.不适合大量迭代计算场景,2.交互式查询(重点是:基于数据流的方式不能复用中间的计算结果) 而Spark RDD是基于工作集的方式,RDD名称叫:弹性式分布式数据集. RDD的弹性式主要分为以下几点: 1.

Spark RDD解密

1. 基于数据集的处理: 从物理存储上加载数据,然后操作数据,然后写入数据到物理设备; 基于数据集的操作不适应的场景: 不适合于大量的迭代: 不适合交互式查询:每次查询都需要对磁盘进行交互. 基于数据流的方式不能够复用曾经的结果或者中间的结果; 2. RDD弹性数据集特点: A)自动的进行内存和磁盘数据的存储切换: B) 基于lineage的高效容错: C) Task如果失败会自动进行重试 D) Stage如果失败会自动进行重试,而且只会计算失败的分片; E) Checkpoint和pers

Spark3000门徒第15课RDD创建内幕彻底解密总结

今晚听了王家林老师的第15课RDD创建内幕彻底解密,课堂笔记如下: Spark driver中第一个RDD:代表了Spark应用程序输入数据的来源.后续通过Transformation来对RDD进行各种算子的转换实现算法创建RDD的方法:1,使用程序中的集合创建RDD;2,使用本地文件系统创建RDD:3,使用HDFS创建RDD 4,基于DB创建RDD5,基于NoSQL,例如HBase 6,基于S3创建RDD 7,基于数据流创建RDD 不指定并行度,有多少core就用多少core,所以需要资源管

Spark3000门徒第9课IDEA中开发Spark实战总结

今晚听了王家林老师的第9课IDEA中开发Spark实战,课后作业是:在Idea中编写广告点击排名的程序并提交集群测试, IDEA社区版本就够用,Ultimate没必要还要钱程序如下: object WordCountCluster { def main(args: Array[String]){ /** * 第一步:创建spark的配置对象SparkConf,设置Spark程序的运行时的配置信息 * */ val conf = new SparkConf() //创建SparkConf对象 c

Spark3000门徒第8课IDE中开发Spark实战总结

今晚听了王家林老师的第8课IDE中开发Spark实战,课后作业是:在Eclipse中编写广告点击排名的程序并测试,程序如下: object WordCountCluster { def main(args: Array[String]){ /** * 第一步:创建spark的配置对象SparkConf,设置Spark程序的运行时的配置信息 */ val conf = new SparkConf() //创建SparkConf对象 conf.setAppName("First App")

Spark3000门徒第10课Java开发Spark实战总结

今晚听了王家林老师的第10课Java开发Spark实战,课后作业是:用Java方式采用Maven开发Spark的WordCount并运行在集群中先配置pom.xml <groupId>com.dt.spark</groupId> <artifactId>SparkApps</artifactId> <version>0.0.1-SNAPSHOT</version> <packaging>jar</packaging

猜你喜欢

[第五组]典型场景：活动发布管理

场景工作序号004:活动发布管理,最后修改时间:2017/7/6 背景 1)经典客户:李石[主要]. 2)客户的需求/迫切解决的问题 a．李石:上传图像文件缓慢,各个图像的尺寸要求太过严格. b．李 ...

JavaScript ,Python,java,Go系列算法之选择排序

常见的内部排序算法有:插入排序.希尔排序.选择排序.冒泡排序.归并排序.快速排序.堆排序.基数排序等.用一张图概括: 选择排序选择排序是一种简单直观的排序算法,无论什么数据进去都是O(n2) 的时间 ...

Groovy语法

Java的东西Groovy都能用,包括语法和类库例如,新建一个HelloGroovy.groovy 输入一下Java代码: /** * Created by sunwenming on 2017/2 ...

Subarray Sum Closet

Given an integer array, find a subarray with sum closest to zero. Return the indexes of the first nu ...

ReactiveCocoa 谈谈concat

今天的一个业务流程,业务流程大概就是这样的 1.从CoreData中获取之前的数据 2.更新界面 3.从网络获取数据 4.判断获取结果 5.处理错误判断 6.更新界面 7.判断结果numberOfNe ...

JAVA获取当前系统事件System.currentTimeMillis（）

System.currentTimeMillis()产生一个当前的毫秒,这个毫秒其实就是自1970年1月1日0时起的毫秒数,Date()其实就是相当于Date(System.currentTimeMi ...

form表单提交的几种方法

<form id="myform" name="myform" method="post" onsubmit="return ...

Android 全屏方法

先介绍去掉标题栏的方法: 第一种:也一般入门的时候经常使用的一种方法 requestWindowFeature(Window.FEATURE_NO_TITLE);//去掉标题栏注意这句一定要写在se ...

JPA学习---第十二节：JPA中的联合主键

1.定义实体类,代码如下: (1).将联合主键放到一个类中,代码如下: package learn.jpa.entity; import java.io.Serializable; import ja ...

iOS 10 版本适配问题收集-b

随着iOS10发布的临近,大家的App都需要适配iOS10,下面是我总结的一些关于iOS10适配方面的问题,如果有错误,欢迎指出. 1.系统判断方法失效: 在你的项目中,当需要判断系统版本的话,不要使 ...

Cobbler Web界面操作（三）

1.添加自定义的ks文件添加自己定义的ks文件时可以参照sample.ks的配置模板编写. 2.编辑profile 在General标签里:关联自定义的ks文件的路径,选择要使用的cobbler r ...

Android应用性能优化笔记

Java代码优化缓存结果: 如果计算代价过高,最好把过去的结果缓存起来. 伪代码如下: result=cache.get(n); //输入参数n作为键 if(result==nul ...

Javascript 正确使用方法二

好的,废话不多说,接着上篇来. 变量(variables) 始终使用 var 关键字来定义变量,如果不这样将会导致变量全局化,造成污染. //bad superPower = new SuperPo ...

移动端之js控制rem，适配字体

方法一:设置fontsize 按照iphone 5的适配 1em=10px 适配320 // "()()"表示自执行函数 (function (doc, win) { va ...

【数学】Vijos P1582 笨笨的L阵游戏

题目链接: https://vijos.org/p/1582 题目大意: 就是o(o<=50)个人在n*m(n,m<=2000)的格子上放L型的东西(有点像俄罗斯方块的L,可对称旋转),问 ...

mencoder把图片和音频文件合成视频

Mencoder可以轻松把图片合成视频文件,也可以图片和音频文件合成视频文件. 文件如下: Jpg文件:1.jpg,2.jpg..10.jpg Mp3文件:audio.mp3 时间为03:33 合成的 ...

std::min 与std::max 的 Compiler Error C2780

代码 #include<iostream>#include <algorithm> // std::min#undef minint main(){ float a =15.0 ...

队列——链表实现

引言: 队列与栈的区别是队列是先进先出的数据结构.为了使得出入队列容易,可以引入队列头指针和队列尾指针. 分析描述: 队列的结点结构. typedef int QElemType; typedef s ...

HTML5(Canvas Vedio Audio 拖动)

1.Canvas (在画布上(Canvas)画一个红色矩形,渐变矩形,彩色矩形,和一些彩色的文字) HTML5 元素用于图形的绘制,通过脚本 (通常是JavaScript)来完成. 标签只是图形 ...

使用URLConnection下载文件或图片并保存到本地

有时候需要从网络上面下载图片到本地进行保存,代码如下: package com.jointsky.jointframe.test; import java.io.FileOutputStream; i ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.019 s.