【转】备份Kylin的元数据

http://blog.csdn.net/jiangshouzhuang/article/details/51290239

Kylin组织它所有的元数据(包括cube descriptions and instances, projects, inverted index description and instances,jobs, tables and dictionaries)作为一个层次的文件系统。

然而,Kylin使用HBase来进行存储,而不是普通的文件系统。

我们可以从Kylin的配置文件kylin.properties中查看到:

## The metadata store in hbase

[email protected]

表示Kylin的元数据被保存在HBase的kylin_metadata表中。

备份Kylin的元数据

./bin/metastore.sh backup

这将备份元数据到本地目录KYLIN_HOME/metadata_backps下面,目录的命名格式为:

KYLIN_HOME/meta_backups/meta_year_month_day_hour_minute_second

比如我的Kylin的家目录为/var/lib/kylin/kylin,那么备份数据的目录为:

/var/lib/kylin/kylin/meta_backups/meta_2016_05_01_11_50_32

我们来查看一下目录:

[[email protected]]$ cd /var/lib/kylin/kylin/meta_backups/meta_2016_05_01_11_50_32

[[email protected]_2016_05_01_11_50_32]$ ll

total 44

drwxrwxr-x 2 kylin kylin 4096 May  1 11:50 cube

drwxrwxr-x 2 kylin kylin 4096 May  1 11:50 cube_desc

drwxrwxr-x 4 kylin kylin 4096 May  1 11:50 cube_statistics

drwxrwxr-x 6 kylin kylin 4096 May  1 11:50 dict

drwxrwxr-x 2 kylin kylin 4096 May  1 11:50 execute

drwxrwxr-x 2 kylin kylin 4096 May  1 11:50 execute_output

drwxrwxr-x 2 kylin kylin 4096 May  1 11:50 model_desc

drwxrwxr-x 2 kylin kylin 4096 May  1 11:50 project

drwxrwxr-x 2 kylin kylin 4096 May  1 11:50 table

drwxrwxr-x 2 kylin kylin 4096 May  1 11:50 table_exd

drwxrwxr-x 5 kylin kylin 4096 May  1 11:50 table_snapshot

恢复元数据 

假如你的Kylin元数据挂掉了,那么我们就可以使用之前备份的数据进行恢复:

1.      首先reset当前Kylin的元数据存储,这将清理掉所有存储在HBase中的Kylin元数据,确保在此之前做过备份

./bin/metastore.sh reset

2.      接着,上传备份的元数据到Kylin的元数据中

./bin/metastore.sh restore$KYLIN_HOME/meta_backups/meta_xxxx_xx_xx_xx_xx_xx

从Kylin元数据中清理掉无用的资源

随着时间的推移,有些资源,比如字典,表的快照等变得无用了(cube的segment被删除或合并了),但是他们仍然占用空间。可以执行如下命令查找和清理无用的元数据:

1.      首先,执行检查,这是安全的操作,不会修改任何内容:

./bin/metastore.sh clean

将需要被删除的资源(resources)罗列出来

2.      接着,在上面的命令中,添加“--delete true”参数,这样就会清理掉哪些无用的资源。切记,在这个命令操作之前,一定要备份Kylin元数据:

./bin/metastore.sh clean --delete true

时间: 2024-10-12 19:25:40

【转】备份Kylin的元数据的相关文章

LVM管理-元数据及分区表的恢复

日常我们为了查看物理卷.卷组.逻辑卷信息会使用一些命令,例如: 这些信息被放置在物理卷的第二扇区中,称为LVM标签,而LVM标签包含UUID号.记录块设备大小.记录元数据位置.其中,LVM的元数据包含了LVM卷组的详细配置并且可以ASCLL格式保存. 一.元数据备份 LVM的元数据默认放置的位置: 我们可以查看元数据文件: 对元数据作备份有3种方法: 第一种: 使用dd将设备信息输出到一个文件中,不过值得注意的是输出的文件我们在查看时会看到一些乱码,在恢复信息时候我们需要将文件中的乱码手动删除.

Kylin安装部署

一.安装准备 1.操作系统 Centos 7.x 2.时间问题 集群内所有节点时间一定要同步. NTP.Chrony 3.用户 创建hadoop组和hadoop用户,并做ssh免密码登录 4.Hadoop HA集群 Hadoop 2.7.3 5.HBase hbase 1.x 6.Hive Hive 1.2.1,使用 mysql 存放元数据 7.准备目录 # mkdir /install # cd /install # chown -R hadoop:hadoop /install 8.kyli

《BI那点儿事》META DATA(元数据)

原文:<BI那点儿事>META DATA(元数据) 关于数据仓库的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据.同时元数据还包含关于数据含义的商业信息,所有这些信息都应当妥善保存,并很好地管理.为数据仓库的发展和使用提供方便.关于数据的数据,用于构造.维持.管理.和使用数据仓库,在数据仓库中尤为重要.不同 OLAP 组件中的数据和应用程序的结构模型.元数据描述 OLTP 数据库中的表.数据仓库和数据集市中的多维数据集这类对象,还记录哪些应用程序引用不同

【转】Kylin实践之使用Hive视图

http://blog.csdn.net/yu616568/article/details/50548967 为什么需要使用视图 Kylin在使用的过程中使用hive作为cube的输入,但是有些情况下,hive中的表定义和数据并不能满足分析的需求,例如有些列的值需要进行处理,有些列的类型不满足需求,甚至有时候在创建hive表时为了图方便,hive中的所有列都被定义成了string,因此很多情况下在使用Kylin之前需要对hive上的数据格式进行适当的修剪,但是使用alter table的方式修改

Linux操作系统备份之二:通过tar拷贝分区实现Linux操作数据的在线备份

http://www.tektea.com/archives/2163.html. 在<Linux操作系统备份之一:使用LVM快照实现Linux操作系统数据的在线备份>文章中,我们介绍了使用LVM快照实现操作性系统在线备份的方法,LVM快照可以实现在线操作系统数据的备份,在线的意思也就是说,不中断业务的条件下,完成操作系统数据的备份. 今天我们介绍另外一种在线备份Linux操作系统的方法:通过tar拷贝操作系统分区数据,完成操作系统备份. 在继续往下面读之前,为了更好理解,请先阅读这篇文章:&

mongodb备份与还原

mongodb单机: 备份所有的库: mongodump --host 10.10.7.33:27019 --gzip --out /home/mongodb/0415_bf 备份指定的库: mongodump --host 10.10.10.251:21100 -d dbname --gzip -out /home/mongodb/bjData2 restore恢复:     mongorestore --host <ip>:<port> --gzip /home/mongodb

cdh5.14.2中集成安装kylin与使用测试

cdh5.14.2中集成安装kylin与使用测试 标签(空格分隔): 大数据平台构建 一:kylin 简介 二:安装配置kylin 三:kylin 运行实例 一:kylin 简介 Apache Kylin?是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区.它能在亚秒内查询巨大的Hive表. kylin 软件下载: 社区版kylin下载地址:https://archive.apa

Kylin系列(一)—— 入门

因为平常只会使用kylin而不知其原理,故写下此篇文章.文章不是自己原创,是看过很多资料,查过很多博客,有自己的理解,觉得精华的部分的一个集合.算是自己对Kylin学习完的一个总结和概括吧.文章最后有链接,需要请自取. 前言 企业中的查询大致可分为即席查询和定制查询两种.很多的OLAP引擎包括Hive.Presto.SparkSQL,虽然很大成都上能降低数据分析的难度,但是他们都只适用于即席查询的场景.但是随着数据量和计算复杂度的增长,响应时间是无法保证的,这其实和业务需要是相违背的,数据分析师

10gocm-&amp;gt;session3-&amp;gt;数据备份与恢复

这个实验考查我们当数据库出现问题宕机.数据丢失的情况下怎样挽回我们的损失,怎样在最短时间内恢复我们的数据库服务. RMAN规划 host target库 catalog库 ocm01 ocmdb   ocm02   ocmdb02 一 模拟Control File 丢失故障处理(实例) 我们模拟控制文件丢失故障并进行高速恢复 强行停止数据库 select open_mode,log_mode from v$database; 1.shutdown abort rm命令删除控制文件 rm cont