Checkpoint

应用的场景

1）DAG中Lineage过长，如果要重新计算的，则开销会很大（如在PageRank中）。

2）在Shuffle Dependency上采用Lineage的话，由于子RDD分区中的一个分区可能依赖于父RDD的中所有分区，所以需要对父RDD中的每个区进行计算，因为在子RDD中有可能其它分区也依赖于父RDD中的多个分区，这样就会造成很大的冗余计算开销。

传统方式

在RDD计算中，通过检查点机制进行容错，传统做检查点有两种方式：

1）通过冗余数据。在RDD中的doCheckPoint方法相当于通过冗余数据来缓存数据；

2）通过日志记录。Lineage就是通过相当粗粒度的记录更新操作来实现容错的。

在Spark中的应用

在Spark中，通过RDD中的checkpoint（）方法来做检查点。

def checkpoint():Unit

可以通过SparkContext.setCheckPointDir()设置检查点数据的存储路劲，进而将数据存储备份，然后Spark删除所有已经做检查点的RDD的祖先RDD依赖。这个操作需要在所有需要对这个RDD所做的操作完成之后再做，因为数据写入持久化存储造成I/O开销。官方建议，做检查点的RDD最好实在内存中已经缓存的RDD，否则保存这个RDD在持久化的文件中需要重新计算，产生I/O开销。

检查点（本质是通过将RDD写入Disk做检查点）是为了通过Lineage做容错的辅助，lineage过长会造成容错成本过高，这样就不如在中间阶段做检查点容错，如果之后节点出现问题而丢失分区，从做检查点的RDD开始重做lineage，就会减少开销。其实这种思想有点像开发程序时，加断点进行调试，哪块儿区域出现bug，就哪块儿区域开始处加断点，没必要从头开始找。

时间： 2024-12-28 15:04:22

Checkpoint的相关文章

InnoDB存储引擎介绍-(4)Checkpoint机制一

检查点的工作机制: innodb会自动维护一个检查点的机制,叫做 fuzzy checkpointing(当然sharp checkpoint也是检查点之一),fuzzy checkpointing就是将buffer pool当中的数据页信息小批量的刷新到磁盘.但是我们没有必要单批次批次的对buffer pool进行刷新,不然后影响其他正在执行的SQL进程. 在crash recovery期间,MySQL也会记录一次检查点信息到log file当中去.它会记录数据库检查点发生之前的所有修改数据

InnoDB存储引擎介绍-(4)Checkpoint机制二

原文链接 http://www.cnblogs.com/chenpingzhao/p/5107480.html 一.简介思考一下这个场景:如果重做日志可以无限地增大,同时缓冲池也足够大,那么是不需要将缓冲池中页的新版本刷新回磁盘.因为当发生宕机时,完全可以通过重做日志来恢复整个数据库系统中的数据到宕机发生的时刻. 但是这需要两个前提条件:1.缓冲池可以缓存数据库中所有的数据:2.重做日志可以无限增大因此Checkpoint(检查点)技术就诞生了,目的是解决以下几个问题:1.缩短数据库的恢复时

Lazy Writer&CheckPoint

Lazy Writer存在的目的是对缓冲区进行管理.当缓冲区达到某一临界值时,Lazy Writer会将缓冲区内的脏页存入磁盘文件中,而将未修改的页释放并回收资源. CheckPoint或Lazy Writer通过将日志文件末尾的LSN号和缓冲区中数据文件的LSN进行对比,只有缓冲区内LSN号小于日志文件末尾的LSN号的数据才会被写入到磁盘中的数据库.因此确保了WAL(Write-Ahead logging在数据写入到数据库之前,先写入日志). CheckPoint会将所有缓冲区的脏页写入磁盘,

关于Oracle GoldenGate中Extract的checkpoint的理解转载

什么是checkpoint? 在Oracle 数据库中checkpoint的意思是将内存中的脏数据强制写入到磁盘的事件,其作用是保持内存中的数据与磁盘上的数据一致.SCN是用来描述该事件发生的准确的时间点. 而GoldenGate中出现的checkpoint有着不同的含义.简单的说就是position,位置的意思.它记录了Extract进程在抽取事务时的进度.使用INFO showch 命令可以查看当前正在运行的Extract进程中所记录的checkpoint. 当GoldenGate被计划内或

Checkpoint/Restore in Userspace（CRIU）的安装与使用（CentOS 7.2）

参考网址:Installation - CRIU CRIU安装: 获取CRIU的源代码 git clone https://github.com/xemul/criu 或者 wget http://download.openvz.org/criu/criu-x.x.tar.bz2 tar -xvf criu-x.x.tar.bz2 安装编译依赖软件 yum install gcc make -y yum install glibc-devel.i686 protobuf protobuf-c p

checkpoint防火墙CPU飙高报警

前些天报警系统频繁报出checkpoint防火墙CPU0,CPU1使用率高达95%.登陆checkpoint命令行 expert模式使用"top"命令可以看到一个"monitored"的进程很占用CPU 查了一下相关文档主要是/var/log/db/var/log/下的db文件高达700多M 官方提供的处理方法如下: ===========================================================================

Inondb中的checkpoint

checkpoint主要是为了解决一下问题: 1.缩短数据库的恢复时间 2.缓冲池不够用时,将脏页刷新到磁盘 3.重做日志不可用时,刷新脏页 Innodb引擎使用LSN(log sequence number)来标记日志版本. LSN是占8个字节的数字.每个页都有LSN.重做日志也有LSN.Checkpoint也有LSN. Innodb存储引擎内部有两种checkpoint: 1.sharp checkpoint 发生在数据库关闭时.将所有脏页刷新到磁盘.这是默认的方式,即innodb_fast

Measuring PostgreSQL Checkpoint Statistics

Checkpoints can be a major drag on write-heavy PostgreSQL installations. The first step toward identifying issues in this area is to monitor how often they happen, which just got an easier to use interface added to the database recently. Checkpoints

检查点Checkpoint的工作原理

大多数关系型数据库都采用"在提交时并不强迫针对数据块的修改完成"而是"提交时保证修改记录(以重做日志的形式)写入日志文件"的机制,来获得性能的优势.即:当用户提交事务,写数据文件是"异步"的,写日志文件是"同步"的. 这就可能导致数据库实例崩溃时,内存中的DB_Buffer 中的修改过的数据,可能没有写入到数据块中.数据库在重新打开时,需要进行恢复,来恢复DB Buffer 中的数据状态,并确保已经提交的数据被写入到数据块中.

猜你喜欢

Spring25大面试题

1.什么是Spring框架?Spring框架有哪些主要模块? Spring框架是一个为Java应用程序的开发提供了综合.广泛的基础性支持的Java平台.Spring帮助开发人员攻克了开发中基础性的问题 ...

二分着色

用两种颜色覆盖图 #include<iostream> #include<stdio.h> #include<vector> #define maxv 1000 u ...

引用计数

在引用计数中,每一个对象负责维护对象所有引用的计数值.当一个新的引用指向对象时,引用计数器就递增,当去掉一个引用时,引用计数就递减.当引用计数到零时,该对象就将释放占有的资源.中文名引用计数原因程序 ...

SDL实现限制帧速

很多人都在SDL_PollEvent和SDL_WaitEvent之间纠结.前者会带来更好的帧数表现,但是CPU占用极大,可以直接吃掉一个核心.后者则基本不占用CPU,但是帧数会受到影响.有没有办法使两 ...

HDU1257(简单DP)

最少拦截系统 Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others)Total Subm ...

Android布局控件

1 <LinearLayout xmlns:android="http://schemas.android.com/apk/res/android" 2 android:la ...

ASP.NET 最全的POST提交数据，和接收数据

//1.对象提交,字典方式 //接口方:public ActionResult GetArry(Car model) public void PostResponse() { HttpWebReque ...

什么是挡板数据

挡板数据就是为了模拟真实的网络请求 ,而编写的假数据,这种数据虽然是编写出来的,但是符合真实环境中的数据格式.这种数据一般存储在程序的本地, 然后直接从本地调用后看显示和相关逻辑是 ...

MaxSliceSum【看答案了】【★★★★★】

1 /// <summary> 2 /// Solution 3 /// 通过率 100% 4 /// </summary> 5 /// <param name=&quo ...

C#使用Redis集群缓存

C#使用Redis集群缓存本文介绍系统缓存组件,采用NOSQL之Redis作为系统缓存层. 一.背景系统考虑到高并发的使用场景.对于并发提交场景,通过上一章节介绍的RabbitMQ组件解决.对于系 ...

110. Balanced Binary Tree (Tree; DFS)

Given a binary tree, determine if it is height-balanced. For this problem, a height-balanced binary ...

iOS开发 - 设立UIButton的Image为Aspect Fit

Button setImage设置的图片默认是会拉伸缩放的,如果我想要Aspect Fit的效果,要如何做呢?一开始我想到了用contentMode属性,很可惜不起作用.后来我发现button有一个i ...

VS2015 VNext学习笔记02：Bower和Grunt

1.概述 (首先声明本人英语水平有限,专业术语也不好恰当翻译,所以有些单词还是不要翻译为好吧) Bower:一个"web包管理",允许您安装和还原客户端软件包,包含 JavaScr ...

Android ORM 框架之 greenDAO 使用心得

原文:http://itangqi.me/android/using-greendao-experience/ 前言我相信,在平时的开发过程中,大家一定会或多或少地接触到 SQLite.然而在使用它 ...

使用C#改变鼠标的指针形状

1.在一个无标题的窗体中用MOUSEMOVE事件判断鼠标坐标是否到达窗体的边缘,如果是的话将鼠标指针改为可调整窗体大小的双向箭头. private void Form1_MouseMove(o ...

读写锁【摘】

读写锁是用来解决读者写者问题的,读操作可以共享,写操作是排他的,读可以有多个在读,写只有唯一个在写,同时写的时候不允许读. 互斥锁与读写锁的区别: 当访问临界区资源时(访问的含义包括所有的操作:读和写 ...

在 VirtualBox 虚拟机中安装 Arch Linux 系统指南

How to install Arch Linux on VirtualBox 本文导航 1.Arch Linux 软件仓库2.在 VirtualBox 虚拟机中安装 Arch Linux 系统1.下 ...

【Java】子类的链式调用

记录最近在项目设计中遇到的一个小问题. 前提:有这样两个POJO类,它们都可以通过链式调用的方式来设置其属性值,其中一个类继承了另一个类. 问题:通过链式调用,子类对象访问父类方法后,如何使返回对象仍 ...

十六、oracle 索引

一.管理索引-原理介绍索引是用于加速数据存取的数据对象.合理的使用索引可以大大降低i/o次数,从而提高数据访问性能.索引有很多种我们主要介绍常用的几种:为什么添加了索引后,会加快查询速度呢? 二.创建 ...

安装fftw到window（vs2010）及使用fftw库函数实现4096点fft变换计算

Windows下FFTW库的安装: 1. 从网站http://www.fftw.org/install/windows.html上下载最新的预编译文件: 32-bit version: fftw ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.019 s.