Zookeeper原理分析之存储结构Snapshot

Zookeeper内存结构

Zookeeper数据在内存中的结构类似于linux的目录结构，DataTree代表这个目录结构， DataNode代表一个节点。DataTree默认初始化三个目录："","/zookeeper","/zookeeper/quota"

DataNode表示一个节点，存储了一下信息：

父节点的引用
节点的权限集合
子节点路径集合

Snapshot

Snapshot是datatree在内存中某一时刻的快照，zookeeper有一定的机制会定时生成datatree的snapshot。FileSnap实现了SnapShot接口负责将数据写入文件中。

snapshot文件格式

Snapshot是以二进制形式存在在文件的，Snapshot文件的中数据大体可以分为两部分header和body。

Header数据格式：

public class FileHeader implements Record {
  private int magic;//魔数   常量ZKSN  代表zookeeper snapshot文件
  private int version;//版本　常量2
  private long dbid;//常量 -1
}

由头部字段可以计算出头部信息占用 4 + 4 + 8 =16bit的固定长度，5A 4B 53 4E 就是魔术ZKSN，00 00 00 02 就是dbid号2，FF FF FF FF FF FF FF FF就是十六进制的-1

body数据格式

Snapshot文件中头部信息之后，紧接着就是body部分的信息，body数据大小是动态的，其存储分为两部分：

    public static void serializeSnapshot(DataTree dt,OutputArchive oa,
            Map<Long, Integer> sessions) throws IOException {
        HashMap<Long, Integer> sessSnap = new HashMap<Long, Integer>(sessions);
        oa.writeInt(sessSnap.size(), "count");
        for (Entry<Long, Integer> entry : sessSnap.entrySet()) {
            oa.writeLong(entry.getKey().longValue(), "id");
            oa.writeInt(entry.getValue().intValue(), "timeout");
        }
        dt.serialize(oa, "tree");
    }

由上面序列到文件代码可以看出先写入一个int类型字段用来存储sessionWithTimeout的个数，然后在遍历集合以一个long一个int的形式写入，表示sessionid和过期时间

把datatree序列化到文件中

    public void serialize(OutputArchive oa, String tag) throws IOException {
        scount = 0;
        serializeList(longKeyMap, oa);
        serializeNode(oa, new StringBuilder(""));
        // / marks end of stream
        // we need to check if clear had been called in between the snapshot.
        if (root != null) {
            oa.writeString("/", "path");
        }
    }

上述代码中的longKeyMap是存储在datatree中的acl权限集合，序列化方式如下：

    private synchronized void serializeList(Map<Long, List<ACL>> longKeyMap,
            OutputArchive oa) throws IOException {
        oa.writeInt(longKeyMap.size(), "map");
        Set<Map.Entry<Long, List<ACL>>> set = longKeyMap.entrySet();
        for (Map.Entry<Long, List<ACL>> val : set) {
            oa.writeLong(val.getKey(), "long");
            List<ACL> aclList = val.getValue();
            oa.startVector(aclList, "acls");
            for (ACL acl : aclList) {
                acl.serialize(oa, "acl");
            }
            oa.endVector(aclList, "acls");
        }
    }

serializeNode表示序列化DataTree中的node节点

    void serializeNode(OutputArchive oa, StringBuilder path) throws IOException {
        String pathString = path.toString();
        DataNode node = getNode(pathString);
        if (node == null) {
            return;
        }
        String children[] = null;
        synchronized (node) {
            scount++;
            oa.writeString(pathString, "path");
            oa.writeRecord(node, "node");
            Set<String> childs = node.getChildren();
            if (childs != null) {
                children = childs.toArray(new String[childs.size()]);
            }
        }
        path.append(‘/‘);
        int off = path.length();
        if (children != null) {
            for (String child : children) {
                // since this is single buffer being resused
                // we need
                // to truncate the previous bytes of string.
                path.delete(off, Integer.MAX_VALUE);
                path.append(child);
                serializeNode(oa, path);
            }
        }
    }

文件尾部校验数据

00 00 00 01 2F snapshot文件结尾5位数据用来校验snapshot文件是否有效

00 00 00 01一个int的数值就是数字1，代表后面1一个字符数据

2F 就是snapshot的结束符/

原文地址：https://www.cnblogs.com/senlinyang/p/8408743.html

时间： 2024-11-12 23:27:22

Zookeeper原理分析之存储结构Snapshot的相关文章

Zookeeper原理分析之存储结构TxnLog

Zookeeper事物日志文件用于记录事物操作,如添加,删除节点等等,都会在事务日志中记录一条记录.下面我们就详细分析一下txnLog事务日志文件. txnLog事务日志文件文件由三部分组成: 日志文件头FileHeader TxnList代表记录记录集合 ZeroPad文件尾部 FileHeader public class FileHeader implements Record { private int magic;//(ZKLG) 常量代表文件魔数 private int versio

2.zookeeper原理解析-数据存储之Snapshot

=====================================斩秋|http://blog.csdn.net/quhongwei_zhanqiu======================================= Snapshot是datatree在内存中某一时刻的影像,zookeeper有一定的机制会定时生成datatree的snapshot.FileSnap实现了SnapShot接口负责将数据写入文件中,下面我们来看看snap相关内容. 2.1 snapshot文件格式

ZooKeeper原理分析

ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等.Zookeeper是hadoop的一个子项目,其发展历程无需赘述.在分布式应用中,由于工程师不能很好地使用锁机制,以及基于消息的协调机制不适合在某些应用中使用,因此需要有一种可靠的.可扩展的.分布式的.可配置的协调机制来统一系统的状态.Zookeeper的目的就在于此.本文简单分析zookeeper的工作原理,对于如何使用zookeeper不是本

zookeeper原理解析-数据存储

Zookeeper内存结构 Zookeeper是怎么存储数据的,什么机制保证集群中数据是一致性,在网络异常,当机以及停电等异常情况下恢复数据的,我们知道数据库给我们提供了这些功能,其实zookeeper也实现了类似数据库的功能. 1. Zookeeper内存结构 Zookeeper数据在内存中的结构类似于linux的目录结构 DataTree代表这个目录结构, DataNode代表一个节点 DataTree: 默认初始化三目录 1)"" 2) "/zookeeper

3.zookeeper原理解析-数据存储之TxnLog事务日志

=====================================斩秋|http://blog.csdn.net/quhongwei_zhanqiu======================================= 事务日志文件用来记录事物操作,每一个事务操作如添加,删除节点等等,都会在事务日志中记录一条记录,用来在zookeeper异常情况下,通过txnlog和snapshot文件来恢复数据,下面我们来看下txnLog事务日志文件的格式打开一个事务日志文件看看一个日志文

MySQL数据库InnoDB存储引擎多版本控制(MVCC)实现原理分析

文/何登成导读: 来自网易研究院的MySQL内核技术研究人何登成,把MySQL数据库InnoDB存储引擎的多版本控制(简称:MVCC)实现原理,做了深入的研究与详细的文字图表分析,方便大家理解InnoDB存储引擎实现的多版本控制技术(简称:MVCC). 基本知识假设对于多版本控制(MVCC)的基础知识,有所了解.MySQL数据库InnoDB存储引擎为了实现多版本的一致性读,采用的是基于回滚段的协议. 行结构 MySQL数据库InnoDB存储引擎表数据的组织方式为主键聚簇索引.由于采用索引

Yii2.0中文开发向导——RBAC(基于角色的访问控制权限)表结构原理分析

这里有几个概念很重要,我简单用大白话说一下;权限:就是指用户是否可以执行哪些操作.如:小张可以发帖.回帖.浏览,小红只能回帖.浏览角色:就是上面说的一组操作的集合.如:高级会员有发帖.回帖.删贴.浏览的权限,普通会员只有回帖.浏览的权限.比如小张是高级会员,那么他就可以执行发帖.回帖.删贴.浏览.而小红是普通会员,所以它就只能回帖.浏览.另外角色还可以继承,中级会员除了普通会员的回帖.浏览功能外,还可以发帖.也就是说在普通会员的基础上又增加了一个发帖的权限.在Yii2.0中 yii\rbac:

kafka笔记-Kafka在zookeeper中的存储结构【转】

参考链接:apache kafka系列之在zookeeper中存储结构 http://blog.csdn.net/lizhitao/article/details/23744675 1.topic注册信息 /brokers/topics/[topic] : 存储某个topic的partitions所有分配信息 Schema: { "version": "版本编号目前固定为数字1", "partitions": { &q

Atitit.数据索引的种类以及原理实现机制索引常用的存储结构

1. 索引的分类1 1.1. 按照存储结构划分btree,hash,bitmap,fulltext1 1.2. 索引的类型按查找方式分,两种,分块索引 vs编号索引1 1.3. 顺序索引 vs 散列索引2 1.4. 按索引与数据的查找顺序可分为正排与倒排索引2 1.5. 单列索引与多列索引复合索引2 1.6. 分区索引和全局索引 2 1.7. Trie树一般指字典树又称单词查找树,Trie树2 1.8. 稠密索引 vs 稀疏索引3 1.9. 多级索引 vs 单击索引3 1.10.