levelDB SSTable-1

创建sstable文件

了解了sstable文件的存储格式，以及Data Block的组织，下面就可以分析如何创建sstable文件了。相关代码在table_builder.h/.cc以及block_builder.h/.cc（构建Block）中。

6.4.1 TableBuilder类

构建sstable文件的类是TableBuilder，该类提供了几个有限的方法可以用来添加k/v对，Flush到文件中等等，它依赖于BlockBuilder来构建Block。

TableBuilder的几个接口说明下：

> void Add(const Slice& key, const Slice& value)，向当前正在构建的表添加新的{key, value}对，要求根据Option指定的Comparator，key必须位于所有前面添加的key之后；

> void Flush()，将当前缓存的k/v全部flush到文件中，一个高级方法，大部分的client不需要直接调用该方法；

> void Finish()，结束表的构建，该方法被调用后，将不再会使用传入的WritableFile；

> void Abandon()，结束表的构建，并丢弃当前缓存的内容，该方法被调用后，将不再会使用传入的WritableFile；【只是设置closed为true，无其他操作】

一旦Finish()/Abandon()方法被调用，将不能再次执行Flush或者Add操作。

下面来看看涉及到的类，如图6.3-1所示。

图6.3-1

其中WritableFile和op log一样，使用的都是内存映射文件。Options是一些调用者可设置的选项。

TableBuilder只有一个成员变量Rep* rep_，实际上Rep结构体的成员就是TableBuilder所有的成员变量；这样做的目的，可能是为了隐藏其内部细节。Rep的定义也是在.cc文件中，对外是透明的。

简单解释下成员的含义：

[cpp] view plain copy

Options options; // data block的选项
Options index_block_options; // index block的选项
WritableFile* file; // sstable文件
uint64_t offset; // 要写入data block在sstable文件中的偏移，初始0
Status status; //当前状态-初始ok
BlockBuilder data_block; //当前操作的data block
BlockBuilder index_block; // sstable的index block
std::string last_key; //当前data block最后的k/v对的key
int64_t num_entries; //当前data block的个数，初始0
bool closed; //调用了Finish() or Abandon()，初始false
FilterBlockBuilder*filter_block; //根据filter数据快速定位key是否在block中
bool pending_index_entry; //见下面的Add函数，初始false
BlockHandle pending_handle; //添加到index block的data block的信息
std::string compressed_output;//压缩后的data block，临时存储，写入后即被清空

Filter block是存储的过滤器信息，它会存储{key, 对应data block在sstable的偏移值}，不一定是完全精确的，以快速定位给定key是否在data block中。

下面分析如何向sstable中添加k/v对，创建并持久化sstable。其它函数都比较简单，略过。另外对于Abandon，简单设置closed=true即返回。

6.4.2 添加k/v对

这是通过方法Add(constSlice& key, const Slice& value)完成的，没有返回值。下面分析下函数的逻辑：

S1 首先保证文件没有close，也就是没有调用过Finish/Abandon，以及保证当前status是ok的；如果当前有缓存的kv对，保证新加入的key是最大的。

[cpp] view plain copy

Rep* r = rep_;
assert(!r->closed);
if (!ok()) return;
if (r->num_entries > 0) {
assert(r->options.comparator->Compare(key, Slice(r->last_key))> 0);
}

S2 如果标记r->pending_index_entry为true，表明遇到下一个data block的第一个k/v，根据key调整r->last_key，这是通过Comparator的FindShortestSeparator完成的。

[cpp] view plain copy

if (r->pending_index_entry) {
assert(r->data_block.empty());
r->options.comparator->FindShortestSeparator(&r->last_key,key);
std::string handle_encoding;
r->pending_handle.EncodeTo(&handle_encoding);
r->index_block.Add(r->last_key, Slice(handle_encoding));
r->pending_index_entry =false;
}

接下来将pending_handle加入到index block中{r->last_key, r->pending_handle’sstring}。最后将r->pending_index_entry设置为false。

值得讲讲pending_index_entry这个标记的意义，见代码注释：

直到遇到下一个databock的第一个key时，我们才为上一个datablock生成index entry，这样的好处是：可以为index使用较短的key；比如上一个data block最后一个k/v的key是"the quick brown fox"，其后继data block的第一个key是"the who"，我们就可以用一个较短的字符串"the r"作为上一个data block的index block entry的key。

简而言之，就是在开始下一个datablock时，Leveldb才将上一个data block加入到index block中。标记pending_index_entry就是干这个用的，对应data block的index entry信息就保存在（BlockHandle）pending_handle。

S3 如果filter_block不为空，就把key加入到filter_block中。

[cpp] view plain copy

if (r->filter_block != NULL) {
r->filter_block->AddKey(key);
}

S4 设置r->last_key = key，将(key, value)添加到r->data_block中，并更新entry数。

[cpp] view plain copy

r->last_key.assign(key.data(), key.size());
r->num_entries++;
r->data_block.Add(key,value);

S5 如果data block的个数超过限制，就立刻Flush到文件中。

[cpp] view plain copy

const size_testimated_block_size = r->data_block.CurrentSizeEstimate();
if (estimated_block_size >=r->options.block_size) Flush();

6.4.3 Flush文件

该函数逻辑比较简单，直接见代码如下：

[cpp] view plain copy

Rep* r = rep_;
assert(!r->closed); // 首先保证未关闭，且状态ok
if (!ok()) return;
if (r->data_block.empty())return; // data block是空的
// 保证pending_index_entry为false，即data block的Add已经完成
assert(!r->pending_index_entry);
// 写入data block，并设置其index entry信息—BlockHandle对象
WriteBlock(&r->data_block, &r->pending_handle);
//写入成功，则Flush文件，并设置r->pending_index_entry为true，
//以根据下一个data block的first key调整index entry的key—即r->last_key
if (ok()) {
r->pending_index_entry =true;
r->status =r->file->Flush();
}
if (r->filter_block != NULL){ //将data block在sstable中的便宜加入到filter block中
r->filter_block->StartBlock(r->offset); // 并指明开始新的data block
}

6.4.4 WriteBlock函数

在Flush文件时，会调用WriteBlock函数将data block写入到文件中，该函数同时还设置data block的index entry信息。原型为：

void WriteBlock(BlockBuilder* block, BlockHandle* handle)

该函数做些预处理工作，序列化要写入的data block，根据需要压缩数据，真正的写入逻辑是在WriteRawBlock函数中。下面分析该函数的处理逻辑。

S1 获得block的序列化数据Slice，根据配置参数决定是否压缩，以及根据压缩格式压缩数据内容。对于Snappy压缩，如果压缩率太低<12.5%，还是作为未压缩内容存储。

BlockBuilder的Finish()函数将data block的数据序列化成一个Slice。

[cpp] view plain copy

Rep* r = rep_;
Slice raw = block->Finish(); // 获得data block的序列化字符串
Slice block_contents;
CompressionType type =r->options.compression;
switch (type) {
case kNoCompression: block_contents= raw; break; // 不压缩
case kSnappyCompression: { // snappy压缩格式
std::string* compressed =&r->compressed_output;
if(port::Snappy_Compress(raw.data(), raw.size(), compressed) &&
compressed->size()< raw.size() - (raw.size() / 8u)) {
block_contents =*compressed;
} else { // 如果不支持Snappy，或者压缩率低于12.5%，依然当作不压缩存储
block_contents = raw;
type = kNoCompression;
}
break;
}
}

S2 将data内容写入到文件，并重置block成初始化状态，清空compressedoutput。

[cpp] view plain copy

WriteRawBlock(block_contents,type, handle);
r->compressed_output.clear();
block->Reset();

6.4.5 WriteRawBlock函数

在WriteBlock把准备工作都做好后，就可以写入到sstable文件中了。来看函数原型：

void WriteRawBlock(const Slice& data, CompressionType, BlockHandle*handle);

函数逻辑很简单，见代码。

[cpp] view plain copy

Rep* r = rep_;
handle->set_offset(r->offset); // 为index设置data block的handle信息
handle->set_size(block_contents.size());
nbsp;r->status =r->file->Append(block_contents); // 写入data block内容
if (r->status.ok()) {// 写入1byte的type和4bytes的crc32
chartrailer[kBlockTrailerSize];
trailer[0] = type;
uint32_t crc = crc32c::Value(block_contents.data(),block_contents.size());
crc = crc32c::Extend(crc, trailer, 1); // Extend crc tocover block type
EncodeFixed32(trailer+1, crc32c::Mask(crc));
r->status =r->file->Append(Slice(trailer, kBlockTrailerSize));
if (r->status.ok()) { // 写入成功更新offset-下一个data block的写入偏移
r->offset +=block_contents.size() + kBlockTrailerSize;
}
}

6.4.6 Finish函数

调用Finish函数，表明调用者将所有已经添加的k/v对持久化到sstable，并关闭sstable文件。

该函数逻辑很清晰，可分为5部分。

S1 首先调用Flush，写入最后的一块data block，然后设置关闭标志closed=true。表明该sstable已经关闭，不能再添加k/v对。

[cpp] view plain copy

Rep* r = rep_;
Flush();
assert(!r->closed);
r->closed = true;

BlockHandle filter_block_handle,metaindex_block_handle, index_block_handle;

S2 写入filter block到文件中

[cpp] view plain copy

if (ok() &&r->filter_block != NULL) {
WriteRawBlock(r->filter_block->Finish(), kNoCompression,&filter_block_handle);
}

S3 写入meta index block到文件中

如果filterblock不为NULL，则加入从"filter.Name"到filter data位置的映射。通过meta index block，可以根据filter名字快速定位到filter的数据区。

[cpp] view plain copy

if (ok()) {
BlockBuildermeta_index_block(&r->options);
if (r->filter_block !=NULL) {
//加入从"filter.Name"到filter data位置的映射
std::string key ="filter.";
key.append(r->options.filter_policy->Name());
std::string handle_encoding;
filter_block_handle.EncodeTo(&handle_encoding);
meta_index_block.Add(key,handle_encoding);
}
// TODO(postrelease): Add stats and other metablocks
WriteBlock(&meta_index_block, &metaindex_block_handle);
}

S4 写入index block，如果成功Flush过data block，那么需要为最后一块data block设置index block，并加入到index block中。

[cpp] view plain copy

if (ok()) {
if (r->pending_index_entry){ // Flush时会被设置为true
r->options.comparator->FindShortSuccessor(&r->last_key);
std::string handle_encoding;
r->pending_handle.EncodeTo(&handle_encoding);
r->index_block.Add(r->last_key, Slice(handle_encoding)); // 加入到index block中
r->pending_index_entry =false;
}
WriteBlock(&r->index_block, &index_block_handle);
}

S5 写入Footer。

[cpp] view plain copy

if (ok()) {
Footer footer;
footer.set_metaindex_handle(metaindex_block_handle);
footer.set_index_handle(index_block_handle);
std::string footer_encoding;
footer.EncodeTo(&footer_encoding);
r->status =r->file->Append(footer_encoding);
if (r->status.ok()) {
r->offset +=footer_encoding.size();
}
}

整个写入流程就分析完了，对于Datablock和Filter Block的操作将在Data block和Filter Block中单独分析，下面的读取相同。

levelDB SSTable-1

时间： 2024-12-26 15:35:48

levelDB SSTable-1的相关文章

LevelDB SSTable文件

[LevelDB SSTable文件] LevelDb不同层级有很多SSTable文件(以后缀.sst为特征),所有.sst文件内部布局都是一样的.上节介绍Log文件是物理分块的,SSTable也一样会将文件划分为固定大小的物理存储块,但是两者逻辑布局大不相同,根本原因是:Log文件中的记录是Key无序的,即先后记录的key大小没有明确大小关系,而.sst文件内部则是根据记录的Key由小到大排列的,从下面介绍的SSTable布局可以体会到Key有序是为何如此设计.sst文件结构的关键. 图4.1

分布式系统领域经典论文翻译集

分布式领域论文译序 sql&nosql年代记 SMAQ:海量数据的存储计算和查询一．google论文系列 1. google系列论文译序 2. The anatomy of a large-scale hypertextual Web search engine (译 zz) 3. web search for a planet :the google cluster architecture(译) 4. GFS:google文件系统 (译) 5.

SSTable and Log Structured Storage: LevelDB

If Protocol Buffers is the lingua franca of individual data record at Google, then the Sorted String Table (SSTable) is one of the most popular outputs for storing, processing, and exchanging datasets. As the name itself implies, an SSTable is a simp

leveldb源码分析--SSTable之逻辑结构

SSTable是leveldb 的核心模块,这也是其称为leveldb的原因,leveldb正是通过将数据分为不同level的数据分为对应的不同的数据文件存储到磁盘之中的.为了理解其机制,我们首先看看SSTable中的基本概念. 首先看看数据的整体存储结构: 可以从图中看到了几个概念:Datablock,Metablock, MetaIndex block, Indexblock, Footer.具体他们的含义可以大致解释如下: 1. Datablock,我们知道文件中的k/v对是有序存储的,他

leveldb源码分析--SSTable之TableBuilder

上一篇文章讲述了SSTable的格式以后,本文结合源码解析SSTable是如何生成的. void TableBuilder::Add(const Slice& key, const Slice& value) { //如果已经插入过数据,那么要保证当前插入的key > 之前最后一次插入的key, // SSTable必须是有序的插入数据 if (r->num_entries > 0) { assert(r->options.comparator->Compar

leveldb源码分析--SSTable之Compaction

对于compaction是leveldb中体量最大的一部分,也应该是最为复杂的部分,为了便于理解我们首先从一些基本的概念开始.下面是一些从doc/impl.html中翻译和整理的内容: Level 0 当日志文件超过一定大小的阈值是 (默认为 1MB): 建立一个新的memtable和日志文件,以后的操作都是用新的memtable和日志文件后台进行如下操作: 将旧的 memtable写到SSTable中(过程为先转为immtable_table,然后遍历写入) 废弃旧的 memtable 删除

leveldb源码分析--SSTable之block

在SSTable中主要存储数据的地方是data block,block_builder就是这个专门进行block的组织的地方,我们来详细看看其中的内容,其主要有Add,Finish和CurrentSizeEstimate三个函数.Finish的逻辑十分简单就是简单的将restart点信息和restart点个数分别以PutFixed32的格式写入数据最后:CurrentSizeEstimate则是简单的计算当前块需要的存储大小 = 已插入的KV对的大小 + 重启点个数 * 4 + 1 * 4(重启

LevelDB源码之三SSTable

上一节提到的MemTable是内存表,而当内存表增长到一定程度时(memtable.size> Options::write_buffer_size),会将当前的MemTable数据持久化(LevelDB中实际有两份MemTable,后面LevelDB数据库备忘时会讲).持久化的文件(sst文件)称之为Table,LevelDB中的Table分为不同的层级,当前版本的最大层级为7(0-6),table中level0的数据最新,level6的数据最旧. Compaction动作负责触发内存表到SS

leveldb学习之sstable(2)

block写入:block_builder block.h和.cc里定义了block的entry存储格式和restart,提供了entry的查找接口以及迭代器.那么如何往写block里写entry呢?leveldb遵循面向对象的设计理念在block_builder类里提供了相关接口. BlockBuilder相关函数: Add( )将entry顺序写入现有block数据块的末端,排序工作在上层的函数完成. Finish( ),当block写满,完成写入重启点数组和重启点个数的写入 Reset(

leveldb学习：sstable(2)

block写入:block_builder block.h和.cc里定义了block的entry存储格式和restart,提供了entry的查找接口以及迭代器.那么怎样往写block里写entry呢?leveldb遵循面向对象的设计理念在block_builder类里提供了相关接口. BlockBuilder相关函数: Add( )将entry顺序写入现有block数据块的末端,排序工作在上层的函数完毕. Finish( ).当block写满,完毕写入重新启动点数组和重新启动点个数的写入 Res

猜你喜欢

IO流入门-第十一章-PrintStream_PrintWriter

DataInputStream和DataOutputStream基本用法和方法示例 /* java.io.PrintStream:标准的输出流,默认打印到控制台,以字节方式 java.io.Print ...

UIWebView中的JS和OC的互调

html的代码如下: <html> <head> <meta xmlns="http://www.w3.org/1999/xhtml" htt ...

形式语言基本

要点: nlp 困难形式语言介绍: 形式语言理论主要研究的是内部结构模式这类语言的纯粹的语法领域.形式语言理论是从语言学衍生而来,作为一种理解自然语言的句法规律.在计算机科学中,形式语言通 ...

2017上半年软考第七章重要知识点

第七章项目范围管理 []项目范围管理概念 [][]项目范围管理的含义和作用项目范围管理内容p289 项目范围对项目管理的重要性?p289 [][]项目范围管理的主要过程项目范围管理的6个过程是? ...

ADO.NET学习笔记之连接字符串

ADO.NET 2.0学习笔记之连接字符串刚刚入门不久,想什么学习下dot net平台,就先从数据访问入手吧,从今天开始认真学习ado.net 2.0,为将来发展做好坚实基础. 连接字符串 SQL ...

win8.1安装开发工具vs2013.3+mssql2012全程

几个常用的命令重起计算机命令:shoutdown.exe -r -t 0 立刻重起在远程桌面中没有关机重起的选项,这个命令是必须的远程桌面连接:mstsc 硬件环境:I7 4770 64RAM ...

iOS Xcode pch文件的路径配置

1.Build Setting 设置中(搜索 Prefix Header) 找到Precomplie Prefix Header 这项设置设置成YES. 2.把Precomplie Prefix He ...

Unity3D各平台Application.xxxPath的路径

前几天我们游戏在一个同事的Android手机上启动时无法正常进入,经查发现Application.temporaryCachePath和Application.persistentDataPath返回 ...

我们常用到css属性hack来兼容不同浏览器或设置不同浏览器的不同属性值说明:本文档兼容性测试基础环境为:windows系统:IE6-IE10, Firefox6.0, Chrome13.0, Sa ...

开始就会分开了江苏东华里疯狂还是独立空间和分类考试的李开复后来开始大力开发

http://sc514499.ivf11.com http://sc834067.ivf39.com http://sc476047.ivf04.com http://sc248971.dai ...

MS SQL SERVER导出表结构到Excel

SELECT 表名 = Case When A.colorder=1 Then D.name Else '' End, 表说明 = Case When A.colorder=1 Then isnull ...

Rxlifecycle（三）：坑

坑1 Observable.just("hello world!") .compose(this.<String>bindUntilEvent(ActivityEven ...

中小企业应如何选择合适的数据保护工具?

处于这个互联网e时代,到底是利大于弊还是弊大于利呢?相信大家都已经了解到近些年不断发生的数据泄露事件,如7天酒店600会员信息被网上叫卖.索尼公司1000万客户信用卡信息遭泄露,电信行业内鬼倒卖用户通 ...

Linux sort命令中文手册(info sort翻译)

说明: (1).本手册只挑选了有用的信息进行翻译,如要查看完完整整的内容,请自行info sort. (2).译文中,在括号中使用了"注"的,为本人所加,非原文内容,助于理解和说明 ...

【转】Core Bluetooth框架之一：Central与Peripheral

原文网址:http://southpeak.github.io/blog/2014/07/29/core-bluetoothkuang-jia-zhi-%5B%3F%5D-:centralyu-per ...

狭闲温猛萝e208mfc5f27oi

http://d.1905.com/space/14122673http://weibo.com/20151030p/2308373904790030626107?b9rlhttp://sina.lt ...

MySql基础知识、存储引擎与常用数据类型

林炳文Evankaka原创作品.转载请注明出处http://blog.csdn.net/evankaka 本文将主要讲解了数据库的一些基础知识,介绍了MySql的存储引擎,最后讲了MySql常用的数据 ...

南阳东诚二手手机电脑回收中心

旧电脑南阳回收旧电脑升级旧电脑如何处理旧笔记本电脑怎么处理电脑南阳回收二手电脑南阳回收网中关村电脑南阳回收二手电脑南阳回收二手电脑旧电脑南阳回收价格废旧电脑南阳回收价格旧电脑怎么 ...

Linux_用户、组及权限管理

Linux系统是一个多用户.多任务的操作系统!所谓的多用户是指多人同时使用系统资源.多任务则是指同时运行多个程序. 用户分为管理员和普通用户,普通用户又分为系统用户和登录用户.其中管理员的权限是最大的 ...

关于HTML5的桌面提醒——Notification

说明测试环境如下:IE: 11版本firefox:34版本chrome: 39版本声明: 百度网上搜索的大部分资料,几乎都是错误的! 几乎千篇一律的都是要检测浏览器是否支持 “桌面提醒”需要用到如 ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.023 s.