Apache Spark RDD之RDD的缓存

RDD的缓存

Spark速度非常快的原因之一，就是在不同操作中在内存中持久化（或缓存）一个数据集。当持久化一个RDD后，每一个节点都将把计算的分片结果保存在内存中，并在对此数据集（或者衍生出的数据集）进行的其他动作（action）中重用。这使得后续的动作变得更加迅速（通常快10倍）。RDD相关的持久化和缓存，是Spark最重要的特征之一。可以说，缓存是Spark构建迭代式算法和快速交互式查询的关键。

通过persist()或cache()方法可以标记一个要被持久化的RDD，一旦首次被触发，该RDD将会被保留在计算节点的内存中并重用。实际上，cache()是使用persist()的快捷方法，它们的实现如下：

/** Persist this RDD with the default storage level (`MEMORY_ONLY`). */
def persist(): this.type = persist(StorageLevel.MEMORY_ONLY)
/** Persist this RDD with the default storage level (`MEMORY_ONLY`). */
def cache(): this.type = persist()

图4中，假设首先进行了RDD0→RDD1→RDD2的计算作业，那么计算结束时，RDD1就已经缓存在系统中了。在进行RDD0→RDD1→RDD3的计算作业时，由于RDD1已经缓存在系统中，因此RDD0→RDD1的转换不会重复进行，计算作业只须进行RDD1→RDD3的计算就可以了，因此计算速度可以得到很大提升。

缓存有可能丢失，或者存储于内存的数据由于内存不足而被删除。RDD的缓存的容错机制保证了即使缓存丢失也能保证计算的正确执行。通过基于RDD的一系列的转换，丢失的数据会被重算。RDD的各个Partition是相对独立的，因此只需要计算丢失的部分即可，并不需要重算全部Partition。

时间： 2024-08-26 14:20:08

Apache Spark RDD之RDD的缓存的相关文章

spark 笔记 6: RDD

了解RDD之前,必读UCB的论文,个人认为这是最好的资料,没有之一. http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable,* partitioned collection of elements that can be operated o

2018年前100名Apache Spark面试问题和解答（上）

我们知道Apache Spark现在是一项蓬勃发展的技术.因此,了解Apache Spark的各个方面以及Spark面试问题非常重要.我将介绍Spark的每个方面,这也可能是经常被问到的Spark面试问题.此外,我将尽力提供每个问题,从现在开始,您搜索最佳和所有Spark面试问题将在此结束. Apache Spark面试问题答案一,什么是Apache Spark? Apache Spark是一个功能强大的开源灵活数据处理框架,围绕速度,易用性和复杂的分析而构建.Apache Spark在集群计

Apache Spark RDD（Resilient Distributed Datasets）论文

Spark RDD(Resilient Distributed Datasets)论文概要 1: 介绍 2: Resilient Distributed Datasets(RDDs) 2.1 RDD 抽象 2.2 Spark 编程接口 2.2.1 例子 – 监控日志数据挖掘 2.3 RDD 模型的优势 2.4 不适合用 RDDs 的应用 3 Spark 编程接口 3.1 Spark 中 RDD 的操作 3.2 举例应用 3.2.1 线性回归 3.2.2 PageRank 4 表达 RDDs 5

Spark 学习（四）RDD自定义分区和缓存

一,简介二,自定义分区规则 2.1 普通的分组TopN实现 2.2 自定义分区规则TopN实现三,RDD的缓存 3.1 RDD缓存简介 3.2 RDD缓存方式正文一,简介在之前的文章中,我们知道RDD的有一个特征:就是一组分片(Partition),即数据集的基本组成单位.对于RDD来说,每个分片都会被一个计算任务处理,并决定并行计算的粒度.用户可以在创建RDD时指定RDD的分片个数,如果没有指定,那么就会采用默认值.默认值就是程序所分配到的CPU Core的数目.这个分配的规则我们是

Apache Spark RDD之RDD的转换

RDD的转换 Spark会根据用户提交的计算逻辑中的RDD的转换和动作来生成RDD之间的依赖关系,同时这个计算链也就生成了逻辑上的DAG.接下来以“Word Count”为例,详细描述这个DAG生成的实现过程. Spark Scala版本的Word Count程序如下: 1: val file = spark.textFile("hdfs://...") 2: val counts = file.flatMap(line => line.split(" "))

Apache Spark RDD之 RDD的检查点

RDD的检查点 RDD的缓存能够在第一次计算完成后,将计算结果保存到内存.本地文件系统或者Tachyon中.通过缓存,Spark避免了RDD上的重复计算,能够极大地提升计算速度.但是,如果缓存丢失了,则需要重新计算.如果计算特别复杂或者计算耗时特别多,那么缓存丢失对于整个Job的影响是不容忽视的.为了避免缓存丢失重新计算带来的开销,Spark又引入检查点机制. 缓存是在计算结束后,直接将计算结果通过用户定义的存储级别(存储级别定义了缓存存储的介质,现在支持内存.本地文件系统和Tachyon)写入

Apache Spark RDD初谈3

RDD的转换和DAG的生成 Spark会根据用户提交的计算逻辑中的RDD的转换和动作来生成RDD之间的依赖关系,同时这个计算链也就生成了逻辑上的DAG.接下来以“Word Count”为例,详细描述这个DAG生成的实现过程. Spark Scala版本的Word Count程序如下: 1: val file = spark.textFile("hdfs://...") 2: val counts = file.flatMap(line => line.split(" &

Apache Spark 2.2.0 中文文档 - Spark RDD（Resilient Distributed Datasets）

Spark RDD(Resilient Distributed Datasets)论文概要 1: 介绍 2: Resilient Distributed Datasets(RDDs) 2.1 RDD 抽象 2.2 Spark 编程接口 2.2.1 例子 – 监控日志数据挖掘 2.3 RDD 模型的优势 2.4 不适合用 RDDs 的应用 3 Spark 编程接口 3.1 Spark 中 RDD 的操作 3.2 举例应用 3.2.1 线性回归 3.2.2 PageRank 4 表达 RDDs 5

Apache Spark 2.0三种API的传说：RDD、DataFrame和Dataset

Apache Spark吸引广大社区开发者的一个重要原因是:Apache Spark提供极其简单.易用的APIs,支持跨多种语言(比如:Scala.Java.Python和R)来操作大数据. 本文主要讲解Apache Spark 2.0中RDD,DataFrame和Dataset三种API:它们各自适合的使用场景:它们的性能和优化:列举使用DataFrame和DataSet代替RDD的场景.文章大部分聚焦DataFrame和Dataset,因为这是Apache Spark 2.0的API统一的重

Apache Spark RDD之有什么特征/属性？

RDD有什么特征/属性? 1)有一个分片列表,就是能被切分,和Hadoop一样,能够切分的数据才能并行计算. 一组分片(partition),即数据集的基本组成单位,对于RDD来说,每个分片都会被一个计算任务处理,并决定并行计算的粒度.用户可以在创建RDD时指定RDD的分片个数,如果没有指定,那么就会采用默认值.默认值就是程序所分配到的CPU Core的数目.每个分配的存储是由BlockManager实现的,每个分区都会被逻辑映射成BlockManager的一个Block,而这个Block会被一

猜你喜欢

Java实现Web页面前数字字母验证码实现

最近公司做项目开发中用到了验证码实现功能,将实现代码分享出来, 前段页面实现代码: <ul> <li><label>验证码:</label>< ...

android 获取联系人的姓名和电话，无法获取电话

============问题描述============ 代码如下 package com.example.sysaction; import android.net.Uri; import andr ...

解决app store下载反复报错“下载失败，请到下载栏重试”

google了一下,大家的解决办法有: 通过显示出debug栏,重置app store(点击reset application) (Refer to: http://daluo.com/article ...

iOS开发类似微信上传头像小操作Demo

效果图: 代码: 图片选择器前面的tablvew里的东西 - (void)tableView:(UITableView *)tableView didSelectRowAtIndexPath:(NSI ...

linux，rmp和yum命令

作业一:rpm命令1) 挂载光盘文件到/media目录 2) 进去/media目录下的Packages目录 3) 查看系统已安装的所有rpm包 4) 查看系统是否安装dhcp软件包 5) 安装dhcp ...

文法解释

<程序>à<外部声明>|<程序><外部声明> <外部声明>à<函数定义>|<定义> <函数定义>à< ...

Unity (五) Sqlite数据库之：Framework

写了个低级框架,偶尔可以拿来用用 1 using System.Collections; 2 using System.Collections.Generic; 3 using UnityEngine ...

vmware笔试题目

http://discuss.acmcoder.com/topic/58db8e2ebb0f44ba0e94e670 上面是完整的题目,下面一下我自己的想法. 这次做的比较菜,就做出来第二题,1和3都 ...

爆打团队四则运算 beta视频

爆打团队四则运算 beta视频链接 http://v.youku.com/v_show/id_XMTU1MjAzNDI0NA==.html?from=s1.8-1-1.2

js 函数声明方式以及javascript的历史

1.function xx(){} 2.匿名方式 window.onload=function(){dslfjdslfkjdslf}; 3.动态方式 var demo=new Function ...

再锨迂牧商b1e0217fg3sw2i

http://home.meishichina.com/space-8763851-do-favblog.htmlhttp://home.meishichina.com/space-8762909-d ...

后台自定义下载限速控制

有时候为了做带宽控制,需要对服务器资源配置限速下载(如通过web服务器配置限速的配置参数),但一般这都是统一的对所有目录资源生效,使用上不够灵活. 我们可以自行开发一个限速模块,通过GET参数来定制每 ...

HDU - 1827 Summer Holiday(强连通分量＋贪心)

题目大意:To see a World in a Grain of Sand And a Heaven in a Wild Flower, Hold Infinity in the palm of y ...

[读书笔记]白帽子讲WEB安全-第二章

声明: 读书笔记是我在阅读过程中做的一些笔记,并在其中添加自己的思考.文章中会涉及到部分书籍原文内容,如有侵权,请联系告知并删除. 原文一切版权归本书作者所有,其他思考痕迹保留所有权. ...

Linux系统架构（LB—HA集群）-HA集群配置

HA集群配置准备两台设备,分别为主从主: [[email protected] ~]# ifconfig eth0 inet addr:192.168.137.21 从: [[emai ...

scanf() & gets() & fgets() 读取字符串的区别

scanf()和gets()读取字符串的区别主要的差别在于它们如何决定字符串何时结束 scanf()更基于获取单词(get word)而不是获取字符串(get string): gets()会读取所 ...

多级派生情况下派生类的构造函数

#include <iostream> #include<string> using namespace std; class Student//声明基类 { public:/ ...

tomcat 记录訪问者 ip + 訪问地址

tomcat 记录訪问者 ip log4j日志在tomcat 文件夹 server.xml里面增加 <Valve className="org.apache.catalina ...

SDS趋势之三：开源软件定义存储

大家都知道IT圈有个非常著名的曲线图,就是Gartner的新兴技术成熟度曲线(Hype Cycle),昨天看了一下Gartner 2016的存储成熟曲线图,今天给大家简单聊聊,多多指教.:) 废话不多 ...

Extjs--12种布局方式

按照Extjs的4.1的文档来看,extjs的布局方式大致有12种,下面一一介绍,有些代码就是文档中的. 1.Border 边界布局 border布局,最多可以将页面分割为"东南西北中&qu ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.023 s.