hbase hfilev2

HFileV2文件

HFileV2文件写入通过StoreFile.Writer-->HFileWriterV2进行写入。

文件格式通过hfile.format.version配置。默认为2,也只有2这个值在0.96可用。

可通过cf中配置DATA_BLOCK_ENCODING配置dataBlock的encoding,

可配置值:NONE,PREFIX,DIFF,FAST_DIFF,PREFIX_TREE,

通过在family的配置属性中配置BLOCKSIZE,来设置hfile的block大小,默认为65536

通过在family的配置属性中配置BLOOMFILTER,来设置是否启用BLOOMFILTER,默认值为ROW,可选值:NONE,ROW,ROWCOL

如果io.storefile.bloom.enabled配置的值为true,默认为true.在writer中生成一个全局的bloomfilter的Writer

在StoreFile.Writer中生成的generalBloomFilterWriter,实现类为:CompoundBloomFilterWriter,

bloomfilter的blocksize通过io.storefile.bloom.block.size配置,默认为128*1024(128k)

如果bloomfilter属性不是ROWCOL时,同时io.storefile.delete.family.bloom.enabled配置为true,默认值为true,

在StoreFile.Writer中生成的deleteFamilyBloomFilterWriter,实现类:CompoundBloomFilterWriter

writer.append操作

写HFileV2文件时,在store进行flush时,会生成StoreFile.Writer实例,通过Writer.append写入kv.

publicvoid append(finalKeyValue
kv) throws IOException {

如果是一个新的kv,也就是row与bloomfilter中的最后一个kv的row不相同,表示需要添加到bloomblock中。

此部分目前是在一个缓冲区中。

appendGeneralBloomfilter(kv);

如果kv是删除的KV,把row添加到deletebloomfilter的block中。

此部分目前是在一个缓冲区中。

appendDeleteFamilyBloomFilter(kv);

通过HFileWriterV2.append写入kv到datablock,

writer.append(kv);

trackTimestamps(kv);

}

HFileWriterV2.append(kv)直接调用如下方法:

privatevoid append(finallong
memstoreTS, finalbyte[] key,

finalint koffset,
finalint klength,

finalbyte[]value,
finalintvoffset,
finalintvlength)

throwsIOException {

检查key是否合法,首先检查上一个添加的key如果比当前的key大,表示有问题,因为hfile的写入需要排序写入。

如果当前的key比上次写入的key要小,返回值为false,如果返回值为true,表示两个key相同。我指的key是rowkey

booleandupKey = checkKey(key, koffset,
klength);

检查value是否为null,

checkValue(value, voffset,vlength);

如果rowkey与上一次的rowkey不是同一个key时,检查hfile的block是否超过了指定的大小。

如果当前的rowkey与上一次写入的rowkey相同时,

就算是block大小超过了指定的大小,相同的rowkey的kv都会写到一个block中。

if(!dupKey) {

此处是检查fsBlockWriter中的大小是否超过了blocksize的大小,如果起过了。需要执行block的flush操作。

checkBlockBoundary();

}

第一次进行入时,fsBlockWriter的状态为State.INIT;此时需要生成一个新的block,并设置State为State.WRITING;

在执行newBlock操作时,生成一个DataOutputStream,使用一个baosInMemory(ByteArrayOutputStream),

每一个block中,basosInMemory的缓冲区是重用的,因此,每一个block中都会执行baosInMemory.reset操作。

并写入block的header信息。

if(!fsBlockWriter.isWriting())

newBlock();

写入kv到datablock的缓冲区中。

//Write length of key and value and then actual key and value bytes.

//Additionally, we may also write down the memstoreTS.

{

DataOutputStream out =fsBlockWriter.getUserDataStream();

out.writeInt(klength);

totalKeyLength+= klength;

out.writeInt(vlength);

totalValueLength+= vlength;

out.write(key, koffset, klength);

out.write(value, voffset,vlength);

if(this.includeMemstoreTS){

WritableUtils.writeVLong(out,memstoreTS);

}

}

记录住此block的第一个key,firstkey主要是blockindex(leaf-level-index)记录每一个block的firstkey.

//Are we the first key in this block?

if(firstKeyInBlock==
null){

//Copy the key.

firstKeyInBlock=
newbyte[klength];

System.arraycopy(key,koffset,
firstKeyInBlock,0, klength);

}

记录最后一个key的值。

lastKeyBuffer= key;

lastKeyOffset= koffset;

lastKeyLength= klength;

entryCount++;

}

flush data block数据刷新

datablock的大小默认为65536(64k),当达到此值时,会对block进行flush操作。

在HFileWriterV2中通过append会对block进行检查。

检查是否是新的一个rowkey的值,如果是检查是否需要flush当前的block,并重新创建一个新的block

boolean dupKey =checkKey(key, koffset, klength);

checkValue(value, voffset,vlength);

if(!dupKey) {

checkBlockBoundary();

}

检查是否达到flush的值,并进行flush操作。

privatevoid checkBlockBoundary()
throwsIOException {

检查block是否达到指定的值。

if(fsBlockWriter.blockSizeWritten()<
blockSize)

return;

对datablock进行flush操作,

finishBlock();

写入索引数据到block中。

writeInlineBlocks(false);

生成一个新的block.

newBlock();

}

finishBlock方法:

privatevoid finishBlock()
throwsIOException {

检查当前的fsBlockWriter的状态非State.WRITING;或者block中的值为0,不做操作。

if(!fsBlockWriter.isWriting()||
fsBlockWriter.blockSizeWritten()== 0)

return;

longstartTimeNs = System.nanoTime();

//Update the first data block offset for scanning.

if(firstDataBlockOffset==
-1) {

如果是第一个block,设置block的offset的值为0,也就是block的开始位置。

firstDataBlockOffset=
outputStream.getPos();

}

记录上一个block的偏移量。主要是用来记录blockindex的一些个准备信息。

此outputStream是每次write一个block后pos的值就会增加。

//Update the last data block offset

lastDataBlockOffset=
outputStream.getPos();

设置fsBlockWriter的状态为State.BLOCK_READY;这样就可以重新执行写入操作。

通过读取buffer中的kv的值,通过encoder对block进行操作。如profix_free等。会写入到一个buffer中。

最后把数据写入到HDFS文件中。

fsBlockWriter.writeHeaderAndData(outputStream);

intonDiskSize =
fsBlockWriter.getOnDiskSizeWithHeader();

byte[]indexKey =
comparator.calcIndexKey(lastKeyOfPreviousBlock,firstKeyInBlock);

把当前block的key与当前block的偏移量,当前block的大小写入到leaflevel
index(BlockIndex)中。

每一个block就会有一条block的index记录。

dataBlockIndexWriter.addEntry(indexKey,lastDataBlockOffset,onDiskSize);

totalUncompressedBytes+=
fsBlockWriter.getUncompressedSizeWithHeader();

HFile.offerWriteLatency(System.nanoTime()- startTimeNs);

是否需要写入kv到cache中。如果是需要,写入到readcache中。

if(cacheConf.shouldCacheDataOnWrite()){

doCacheOnWrite(lastDataBlockOffset);

}

}

DataBlock的格式:


8byte


4byte


4byte


8byte


1byte


4byte


4byte


...


blockType


onDiskSize+checsumSize


unCompressedSize


prevOffset


checksumType


bytesPerChecksum


onDiskSize


data

BlockType是block类型

第二个是压缩部分下checksumsize的大小

第三部分是未压缩部分的大小

第4部分是上一个block的偏移号

第5部分是checksumtype的类型

第6部分是是每个checksum的字节数,默认为16*1024

第7部分是压缩部分的大小,但不包含checksunsize

最后是数据部分。

写入索引的block数据,要写入的索引包含如下几个:

blockIndex也就是dataBlockIndexWriter的默认实现是HFileBlockIndex.BlockIndexWriter.

BloomFilterIndex,也就是CompoundBloomFilterWriter实现。

DeleteBloomFilterIndex,也就是CompoundBloomFilterWriter实现。

privatevoid writeInlineBlocks(booleanclosing)
throws IOException {

for(InlineBlockWriter ibw :
inlineBlockWriters){

while(ibw.shouldWriteBlock(closing))
{

longoffset =
outputStream.getPos();

booleancacheThisBlock = ibw.getCacheOnWrite();

ibw.writeInlineBlock(fsBlockWriter.startWriting(

ibw.getInlineBlockType()));

fsBlockWriter.writeHeaderAndData(outputStream);

ibw.blockWritten(offset,fsBlockWriter.getOnDiskSizeWithHeader(),

fsBlockWriter.getUncompressedSizeWithoutHeader());

totalUncompressedBytes+=
fsBlockWriter.getUncompressedSizeWithHeader();

if(cacheThisBlock) {

doCacheOnWrite(offset);

}

}

}

}

1.blockIndex的shouldWriteBlock主要检查大小(非rootindex)是否大于128*1024(128kb),

2.bloomFilterIndex与deleteBloomFilterIndex的shouldWriteBlock,

只要bloomfilter中有值,也就是chunk中有数据,shouldWriteBlock的方法返回就为true,

把block写入到HDFS中。

blockIndex的blockType为LEAF_INDEX,

bloomfilter的blockType为BLOOM_CHUNK

也就是说:

blockIndex中记录有每一个dataBlock的firstKey,offset,blockSize,

bloomFilterIndex中记录有每一个(row)rowkey,(rowcol)或者rowkey与Qualifier,的hash值,

此处的hash主要是bloomfilter的相关信息。

每一个dataBlock进行flush后,都会强制flush到bloomfilter的block.

在flush后bloomfilter后,

会在rootBloomFilter(bloomBlockIndexWriter)的缓冲区中记录此bloomfliter的firstkey.offset,blocksize.

在每一个blockindex进行flush后,这个在datablock进行flush时不会强制flsuh,只有达到指定的值时,才进行flush.

在每一次对blockindex进行flush后,会在rootindex的缓冲区中记录住此blockindex的firstkey,offset,blocksize.

最后:

1.在执行writer.close时,写入rootindex的block

如果blockindex的大小超过了128k,会把rootindex的每128k写入一个INTERMEDIATE_INDEX

记录住所有的INTERMEDIATE_INDEX的firstkey,offset,blocksize,

此处是一个重复的迭代过程,只有当ROOT_INDEX。可以写入的blocksize小于128kb时,把最后一个写入为ROOT_INDEX

在trailer中记录ROOTINDEX的offset.

2.接下来写入meta,也就是root的bloomfilter的信息。

3.写入FILE_INFO。会在trailer中记录住fileInfo的offset.

4.写入trailer.

Fileinfo中包含:

MAX_SEQ_ID_KEY,记录hfile最大的seqid,

MAJOR_COMPACTION_KEY,是否做过majorcompaction。

TIMERANGE,记录hfile中的timeRangeTracker.

EARLIEST_PUT_TS,hfile中最老的timestamp

DATA_BLOCK_ENCODING,记录hfile的encoding的配置值

BLOOM_FILTER_TYPE,记录有全局的bloomfilter的类型

DELETE_FAMILY_COUNT,记录有delete的family的个数。

Hfile.LASTKEY,记录此hfile中最后一个key的值,

hfile.AVG_KEY_LEN,记录key的平均长度。

Hfile.AVG_VALUE_LEN,记录value的平均长度。

Trailer中的内容:

majorVersion:hfile的版本号,固定的值2,

minorVersion,hfile的最大版本号,3.

loadOnOpenDataOffset,datablockrootindex的offset

fileInfoOffset,fileinfo的offset,

numDataIndexLevels,rootindex的层级,在上面提到过的INTERMEDIATE_INDEX有几个层级。

UncompressedDataIndexSize,Uncompressedsize总大小。

firstDataBlockOffset,第一个blockoffset

lastDataBlockOffset,最后一个blockoffset.

ComparatorClassName,比较器的类名称。

dataIndexCountrootindex中存储的index个数。

.......

hbase hfilev2

时间: 2024-08-04 15:51:18

hbase hfilev2的相关文章

深入HBase架构解析(一)[转]

前记 公司内部使用的是MapR版本的Hadoop生态系统,因而从MapR的官网看到了这篇文文章:An In-Depth Look at the HBase Architecture,原本想翻译全文,然而如果翻译就需要各种咬文嚼字,太麻烦,因而本文大部分使用了自己的语言,并且加入了其他资源的参考理解以及本人自己读源码时对其的理解,属于半翻译.半原创吧. HBase架构组成 HBase采用Master/Slave架构搭建集群,它隶属于Hadoop生态系统,由一下类型节点组成:HMaster节点.HR

[转]毕设- 深入HBase架构解析(一)

深入HBase架构解析(一) 前记 公司内部使用的是MapR版本的Hadoop生态系统,因而从MapR的官网看到了这篇文文章:An In-Depth Look at the HBase Architecture,原本想翻译全文,然而如果翻译就需要各种咬文嚼字,太麻烦,因而本文大部分使用了自己的语言,并且加入了其他资源的参考理解以及本人自己读源码时对其的理解,属于半翻译.半原创吧. HBase架构组成 HBase采用Master/Slave架构搭建集群,它隶属于Hadoop生态系统,由一下类型节点

淘宝在hbase中的应用和优化

本文来自于NoSQLFan联合作者@koven2049,他在淘宝从事Hadoop及HBase相关的应用和优化.对Hadoop.HBase都有深入的了解,本文就是其在工作中对HBase的应用优化小结,分享给大家. 目 录 [ - ] 前言 原因 应用情况 部署.运维和监控 测试与发布 改进和优化 将来计划 前言 hbase是从 hadoop中分离出来的apache顶级开源项目.由于它很好地用java实现了google的bigtable系统大部分特性,因此在数据量猛增的今天非常受到欢迎.对于淘宝而言

HBASE架构解析(一)

http://www.blogjava.net/DLevin/archive/2015/08/22/426877.html 前记 公司内部使用的是MapR版本的Hadoop生态系统,因而从MapR的官网看到了这篇文文章:An In-Depth Look at the HBase Architecture,原本想翻译全文,然而如果翻译就需要各种咬文嚼字,太麻烦,因而本文大部分使用了自己的语言,并且加入了其他资源的参考理解以及本人自己读源码时对其的理解,属于半翻译.半原创吧. HBase架构组成 H

hbase基本结构

HBASE  基本结构一.overview1. hbase <=> NOSQL     不错,hbase 就是某种类型的nosql 数据库,唯一的区别就是他支持海量的数据.    hbase的基本功能:     1) 强一致性的读写,而非“最终一致性”(eventually consistent)的数据仓库.基于此,hbase非常适合高速的统计计数工作.        2)自动sharding ,hbase 是分布式的数据库,支持数据的自动切分. 3) regionServer 的自动fail

HBase默认配置文件 hbase-default.xml 注释解析

HBase默认配置文件注释解析: hbase-default.xml <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration> <!-- hbase的本地临时目录,每次机器重启数据会丢失,建议放到某个持久化文件目录下 --> <property> &l

hbase过滤器(1)

最近在公司做hbase就打算复习下它的过滤器以便不时之需,RowFilter根据行键(rowkey)筛选数据 public void filter() throws IOException { Filter rf = new RowFilter(CompareFilter.CompareOp.LESS, new BinaryComparator(Bytes.toBytes("35643b94-b396-4cdc-abd9-029ca495769d"))); Scan s = new S

[原创]HBase学习笔记(1)-安装和部署

HBase安装和部署 使用的HBase版本是1.2.4 1.安装步骤(默认hdfs已安装好) # 下载并解压安装包 cd tools/ tar -zxf hbase-1.2.4-bin.tar.gz   # 重命名为hbase mv hbase-1.2.4 hbase # 将hadoop目录下的hdfs-site.xml 和 core-stie.xml拷贝到 hbase下的conf 目录中 cd /home/work/tools/hbase/conf cp /home/work/tools/ha

Hbase delete遇到的常见异常: Exception in thread &quot;main&quot; java.lang.UnsupportedOperationException

hbase 执行批量删除时出现错误: Exception in thread "main" java.lang.UnsupportedOperationException at java.util.AbstractList.remove(AbstractList.java:161) at org.apache.hadoop.hbase.client.HTable.delete(HTable.java:852) 这种异常其实很常见,remove操作不支持,为什么会出现不支持的情况呢?检查