HBase快照(Snapshot)技术

什么是快照

快照就是一份元信息的合集,允许管理员恢复到表的先前状态。快照不是表的复制而是一个文件名称列表,因而不会复制数据。

完全快照恢复指恢复到之前的“表结构”以及当时的数据,快照之后发生的数据不会恢复。

快照的作用

HBase中存在的备份或克隆表的方法就是使用复制/导出表或者在关闭表之后拷贝HDFS中的所有HFile。

复制或导出是通过一系列工具调用MapReduce来扫描并复制表,这样会对RegionServer有直接的影响。关闭表会停止所有的读写操作,实际环境中往往无法接受。

相比之下HBase快照允许管理员不拷贝数据,而直接克隆一张表,这对域服务器产生的影响最小。将快照导出至其他集群不会直接影响到任何服务器;导出只是带有一些额外逻辑的群间数据同步。

快照优势

导出快照与复制/导出表除了更好地保持一致性外,主要的不同在于导出快照是在HDFS的层面操作的。 这意味着HMaster和域服务器与操作无关。因此不需要为不必要的数据创建缓存空间,也不会有扫描过程。因为大量对象创建引起的GC暂停,对于HBase 来说主要性能影响就是DataNode额外的网络和磁盘负载。

应用场景

1、从用户/应用异常中还原。

2、从一个已知的安全状态恢复/还原。

3、查看之前的快照并有选择性的合并不同写入产品环境。

4、当主应用程序升级或改版时保存快照。

5、在指定时间审查和 或 报告数据。

6、按照规定捕获月度数据

7、生成日终/月末/季末报告。

8、应用测试。

9、通过快照模拟生产环境下结构或应用发生的变化,测试完成即可丢弃。

例如:生成快照,利用快照中内容构建新表(原有结构+数据)并且修改新的结构,添加或删除列之类。(原始表、快照和新表保持相互独立)

10、减少工作压力。

11、生成快照,导入到其他集群,然后运行MapReduce jobs。因为导出的快是HDFS级别,所以不会像复制表那样降低HBase主集群的效率。

快照操作

生成快照:

本操作尝试对指定表生成快照。如果集群在执行数据均衡、分隔或合并等操作时,可能会引起操作失败。

克隆快照:

本操作使用与指定快照相同的结构数据构建一张新表。 操作结果会生成一张有完整功能的表,对该表的任意修改不会对原表或快照产生影响。

还原快照:

本操作将表结构和数据恢复到生成快照时的状态。(注意:本操作会舍弃快照生成后任何改变)。

删除快照:

本操作将系统中的快照删除,释放未共享的磁盘空间, 而且不会影响其他克隆或快照。

导出快照:

本操作将快照数据和元数据复制到其他集群。操作只会涉及HDFS,不会与HMaster或RegionServer产生任何联系,因此HBase集群可以关闭。

Demo

通过检查hbase-site.xml中的hbase.snapshot.enabled是否设置为true确认打开了快照许可。

1、获取指定表的快照使用snapshot命令(不产生文件复制)

hbase>snapshot ‘tableName‘,‘snapshotName‘

2、列出所有的快照,使用list_snapshot命令。会展示出快照名称,源表,以及创建日期和时间

hbase>list_snapshots

3、删除快照使用deleted_snapshot命令。删除快照不会影响到克隆表或者之后生成的快照。

hbase>delete_snapshot ‘snapshotName‘

4、使用clone_snapshot命令从指定的快照生成新表(克隆)。由于不会产生数据复制,所以最终用到的数据不会是之前的两倍。

hbsse>clone_snapshot ‘snapshotName‘,‘newTableName‘

5、使用restore_snapshot命令将指定快照内容替换当前表结构或数据;

hbase>restore_snapshot ‘snapshotName‘

6、使用ExportSnapshot工具将现有快照导出至其他集群。导出工具不会影响到域服务器负载,只是工作在HDFS层面,所以需要指定HDFS路径(其他集群的hbase根目录)。

hbase org.apache.hadoop.hbase.snapshot.ExportSnapshot -snapshotName -copy-to hdfs :///srv2:8082/hbase

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-10-11 11:15:00

HBase快照(Snapshot)技术的相关文章

HBase创建快照(snapshot)出现异常的处理方法

今天在hbase中创建快照的时候遇到了如下错误: hbase(main):004:0> snapshot 'booking', 'booking-snapshot-20140912' ERROR: org.apache.hadoop.hbase.snapshot.HBaseSnapshotException: Snapshot { ss=booking-snapshot-20140912 table=booking type=FLUSH } had an error. Procedure boo

虚拟化域控制器系列(1) - 可以用快照(Snapshot)或以复制VHD的方式做备份吗?

虚拟化域控可以用快照(Snapshot)或以复制VHD的方式做备份吗? 从Windows Server 2012开始, 微软支持并优化虚拟的域控制器运行, 更可以对域控制器进行克隆(Clone)这种以往被视为疯狂的动作! 但在了解新技术前, 我们先来看看微软为什么说旧的域控制器版本不可以这样做. 以往的Windows Server 2003/2008不是不可以安装到虚拟机上, 如果虚拟机运行如常 可以一直用10年也没有问题, 但问题出在进行备份/还原VHD (或vmdk), 和虚拟机器独有的快照

LVM快照(snapshot)备份

转载自:http://wenku.baidu.com/link?url=cbioiMKsfrxlzrJmoUMaztbrTelkE0FQ8F9qUHX7sa9va-BkkL4amvzCCAKg2hBv5ZmYL_ERp3Wprd1jVxG-333s6tCJn2LGqCAvFmJ6dXC Logical VolumeManager (LVM)提供了对任意一个LogicalVolume(LV)做“快照”(snapshot)的功能,以此来获得一个分区的状态一致性备份. 在某一个状态下做备份的时候,可能

hadoop-hbase学习笔记

create "t",{NAME=>"t_id"},{NAME=>"t_vl"} describe "t" disable "t" alter "t",{NAME=>"t_info",VERSIONS=>3} put "t","1001","t_vl:age","25&quo

快照(Snapshot)技术发展综述

快照(Snapshot)技术发展综述 刘爱贵 摘要:传统数据备份技术存在备份窗口.恢复时间目标RTO和恢复时间点RPO过长的问题,无法满足企业关键性业务的数据保护需求,因此产生了数据快照技术.本文对快照技术的概念.特点.实现技术和发展现状进行了概括性阐述,并对其未来的发展进行了展望. 关键词:快照,备份,复制,镜像,写时复制,指针重映射 作者简介:刘爱贵,研究方向为网络存储.数据挖掘和分布式计算:毕业于中科院,目前就职于赛门铁克@Symantec,从事存储软件研发.Email: [email p

利用HBase的快照功能来修改表名

hbase的快照功能常常被用来做数据的恢复的,但是由于项目的特殊需求需要改hbase表的表名.在官网上通过快照功能来修改hbase表名的用法: 下面展示用shell命令的和Java api两种方式: In versions 0.90.x of hbase and earlier, we had a simple script that would rename the hdfs table directory and then do an edit of the hbase:meta table

ROW/COW 快照技术原理解析

目录 目录 快照与备份的区别 Snapshot 快照技术 全量快照 增量快照 COW 写时拷贝快照技术 ROW 写时重定向快照技术 快照与备份的区别 传统地, 人们一直采用数据复制.备份.恢复等技术来保护重要的数据信息, 定期对数据进行备份或复制.由于数据备份过程会影响应用性能, 并且非常耗时, 因此数据备份通常被安排在系统负载较轻时进行(如夜间). 另外, 为了节省存储空间, 通常结合全量和增量备份技术. 显然, 这种数据备份方式存在一个显著的不足, 即备份窗口问题. 在数据备份期间, 企业业

快照技术解析(收集)

1 概述 1.1 快照技术产生背景 在过去的20多年中,虽然计算机技术取得了巨大的发展,但是数据备份技术却没有长足进步.数据备份操作代价和成本仍然比较高,并且消耗大量时间和系统资源,数据备份的恢复时间目标和恢复点目标比较长. 传统地,人们一直采用数据复制.备份.恢复等技术来保护重要的数据信息,定期对数据进行备份或复制.由于数据备份过程会影响应用性能,并且非常耗时,因此数据备份通常被安排在系统负载较轻时进行(如夜间).另外,为了节省存储空间,通常结合全量和增量备份技术. 显然,这种数据备份方式存在

快照技术

随着企业数据量逐渐增加且数据增长速度不断加快,缩短备份窗口成为系统管理员重点关注的问题,以在线方式对数据进行保护,提升数据保护的简易性, 降低数据保护的代价,提高数据保护过程中的应用感知能力,逐步成为客户的首要需求.快照备份技术逐渐成为解决这一问题的有效方法之一. 一.快照概念介绍 存储网络行业协会(SNIA)对快照的定义是:对指定数据集合的一个完全可用拷贝,该拷贝包含源数据在拷贝时间点的静态影像. 快照可以是数据再现的一个副本或者复制.对于文件系统来说,文件系统快照是文件系统的一个即时拷贝,它