Protobuf底层存储原理

参考官网，序列化原理

底层二进制存储

message Test1 {
optional int32 a = 1;
}

并设置为a=150，序列化到一个文件中，查看文件，得到下面的二进制：
08 96 01
从底层存储的二进制值看出，Protobuf为什么这么快，节省内存了吧。

有以上的结果是因为 varints 这个特殊的东东。它可以让已个int数据类型的存储根据值的大小而自动改变存储的字节数。

varint 中的每个字节，除了最后一个字节，都有最重要的位集——这表示还会有更多的字节。每个字节的低7位用于存储以7位为一组的数字的两个补码表示形式，最先存储的是最低字节。

比如存储数字1，请看二进制格式：
0000 0001
因为只有一个字节，所以最高位是0.

比如存储数字300，请看二进制格式：
1010 1100 0000 0010
计算方法：

1.先删除最高位。因为这位时没意义的，只是告诉我们是否叨叨数字的末尾。
1010 1100 0000 0010
→ 010 1100 000 0010
2.翻转字节。因为varint最先存储的是最低字节。
010 1100 000 0010
→000 0010 010 1100
3.字节相加。还原最终的值。
→ 000 0010 ++ 010 1100
→ 100101100
→ 256 + 32 + 8 + 4 = 300

Protobuf 的快，小就是通过以上来实现的了。。。。。。

消息结构（Message Structure）

Protobuf 是一系列键值对。消息的二进制版本只使用字段的标签作为键，每个字段的名称和声明类型只能在解码结束时通过引用消息类型的定义来确定。

当对消息进行编码时，键和值被连接到一个字节流中。当消息被解码时，解析器能够跳过它不认识的字段。通过这种方式，可以使旧代码（相对Protobuf消息定义的新旧）能够兼容新的字段而不用修改代码。为此，行格式消息中每对的“键”实际上是两个值——.proto文件中的字段号+一个线类型，通过该类型可以推断出数据长度。在大多数语言实现中，这个键被称为标记。

数据类型：
| Type | Meaning | Used For |
| --- | --- | --- | --- |
| 0 | Varint | int32, int64, uint32, uint64, sint32, sint64, bool, enum|
| 1 | 64-bit | fixed64, sfixed64, double|
| 2 | Length-delimited | string, bytes, embedded messages, packed repeated fields|
| 3 | Start group | groups (deprecated)|
| 4 | End group | groups (deprecated)|
| 5 | 32-bit | fixed32, sfixed32, float|

流消息中的每个键都是一个varint，其值为(field_number << 3) | wire_type，也就是说，数字的最后三位存储了存储数据包的类型。

例如：
底层存储二进制是：
000 1000

那么原字段的类型就是根据(field_number << 3) | wire_type得到低三位得到 wire( 0 )，是一个 Varint 类型，也就是数字。剩下的几位右移，得到的是1，因此字段标签是1

所以字段原型应该是：
struct Message {
int32 | int64 | uint32 | uint64 | sint32 | sint64 | bool | enum xxx = 1;
}；

再来看下两个字节的150:

1.十六进制值为：
96 01
2.转换为二进制格式：
1001 0110 0000 0001
3.丢弃最后一位（没意义，只是判断是否是最后一个字节），并且翻转字节（varint是先存储最低字节），最后穿起来得到真正的二进制值，进而得到原值。
- → 000 0001 ++ 001 0110 (drop the msb and reverse the groups of 7 bits)
  → 10010110
  → 128 + 16 + 4 + 2 = 150

由此看见，多字节的二进制存储，就是多了丢弃最后一位，翻转字节的步骤。

Protobuf底层存储原理

底层二进制存储

消息结构（Message Structure）

更多数据类型

有符号整型（Signed Integers）

非varint数字（Non-varint Numbers）

Strings

嵌入类型（Embedded Messages）

Protobuf底层存储原理的相关文章

HBase底层存储原理——我靠，和cassandra本质上没有区别啊！都是kv 列存储，只是一个是p2p另一个是集中式而已！

VMware虚拟机底层存储结构和还原快照恢复原理

由PHP底层工作原理说起

Exchange Server 运维管理02：邮箱数据库存储原理

Java并发编程系列-(8) JMM和底层实现原理

迭代器Iterator的底层实现原理

浅议事件异步处理底层实现原理

flash存储原理

Docker底层存储结构