最常用的两种C++序列化方案的使用心得(protobuf和boost serialization)

导读


1. 什么是序列化?

2. 为什么要序列化?好处在哪里?

3. C++对象序列化的四种方法

4. 最常用的两种序列化方案使用心得

正文


1. 什么是序列化?


程序员在编写应用程序的时候往往需要将程序的某些数据存储在内存中,然后将其写入某个文件或是将它传输到网络中的另一台计算机上以实现通讯。这个将
程序数据转化成能被存储并传输的格式的过程被称为“序列化”(Serialization),而它的逆过程则可被称为“反序列化”
(Deserialization)。

简单来说,序列化就是将对象实例的状态转换为可保持或传输的格式的过程。与序列化相对的是反序列化,它根据流重构对象。这两个过程结合起来,可以轻
松地存储和传输数据。例如,可以序列化一个对象,然后使用 HTTP 通过 Internet 在客户端和服务器之间传输该对象。

总结

序列化:将对象变成字节流的形式传出去。

反序列化:从字节流恢复成原来的对象。

2. 为什么要序列化?好处在哪里?


简单来说,对象序列化通常用于两个目的:

(1) 将对象存储于硬盘上  ,便于以后反序列化使用

(2)在网络上传送对象的字节序列

对象序列化的好处在哪里?网络传输方面的便捷性、灵活性就不说了,这里举个我们经常可能发生的需求:你
有一个数据结构,里面存储的数据是经过很多其它数据通过非常复杂的算法生成的,由于数据量很大,算法又复杂,因此生成该数据结构所用数据的时间可能要很久
(也许几个小时,甚至几天),生成该数据结构后又要用作其它的计算,那么你在调试阶段,每次运行个程序,就光生成数据结构就要花上这么长的时间,无疑代价
是非常大的。如果你确定生成数据结构的算法不会变或不常变,那么就可以通过序列化技术生成数据结构数据存储到磁盘上,下次重新运行程序时只需要从磁盘上读
取该对象数据即可,所花费时间也就读一个文件的时间,可想而知是多么的快,节省了我们的开发时间。

3. C++对象序列化的四种方法


将C++对象进行序列化的方法一般有四种,下面分别介绍:

3.1 Google Protocol Buffers(protobuf)


Google Protocol Buffers
(GPB)是Google内部使用的数据编码方式,旨在用来代替XML进行数据交换。可用于数据序列化与反序列化。主要特性有:

  • 高效

  • 语言中立(Cpp, Java, Python)

  • 可扩展

官方文档

3.2 Boost.Serialization


Boost.Serialization可以创建或重建程序中的等效结构,并保存为二进制数据、文本数据、XML或者有用户自定义的其他文件。该库具有以下吸引人的特性:

  • 代码可移植(实现仅依赖于ANSI C++)。

  • 深度指针保存与恢复。

  • 可以序列化STL容器和其他常用模版库。

  • 数据可移植。

  • 非入侵性。

3.3 MFC Serialization


Windows平台下可使用MFC中的序列化方法。MFC 对 CObject 类中的序列化提供内置支持。因此,所有从 CObject 派生的类都可利用
CObject 的序列化协议。

MSDN中的介绍

3.4 .Net Framework


.NET的运行时环境用来支持用户定义类型的流化的机制。它在此过程中,先将对象的公共字段和私有字段以及类的名称(包括类所在的程序集)转换为字节流,然后再把字节流写入数据流。在随后对对象进行反序列化时,将创建出与原对象完全相同的副本。

3.5 简单总结


这几种序列化方案各有优缺点,各有自己的适用场景。其中MFC和.Net框架的方法适用范围很窄,只适用于Windows下,且.Net框架方法还需要.Net的运行环境。参考文献1从序列化时间、反序列化时间和产生数据文件大小这几个方面比较了前三种序列化方案,得出结论如下(仅供参考):

  • Google Protocol
    Buffers效率较高,但是数据对象必须预先定义,并使用protoc编译,适合要求效率,允许自定义类型的内部场合使用。

  • Boost.Serialization 使用灵活简单,而且支持标准C++容器。

  • 相比而言,MFC的效率较低,但是结合MSVS平台使用最为方便。

为了考虑平台的移植性、适用性和高效性,推荐大家使用Google的protobuf和Boost的序列化方案,下面介绍我使用这两种方案的心得及注意事项。

4. 最常用的两种序列化方案使用心得


关于这两种方案的具体使用和示例没什么好写的,因为优秀的参考资料很多,请看后面给出的相关参考资料,这里只给出我使用时的一些心得,方便大家在选择序列化方案时有个正确的参考,避免选择错误,浪费时间。

4.1 Google Protocol Buffers


protobuf相对而言效率应该是最高的,不管是安装效率还是使用效率,protobuf都很高效,而且protobuf不仅用于C++序列化,还可用于Java和Python的序列化,使用范围很广。但在使用过程中要注意两个问题:

(1)protobuf支持的数据类型不是很丰富

protobuf属于轻量级的,因此不能支持太多的数据类型,下面是protobuf支持的基本类型列表,一般都能满足需求,不过在选择方案之前,还是先看看是否都能支持,以免前功尽弃。同样该表也值得收藏,作为我们在定义类型时做参考。


































































.proto
type

c++

notes

double

double


float

float


int32

int32

使用可变长编码方式,负数时不够高效,应该使用sint32

int64

int64

同上

uint32

uint32

使用可变长编码方式

uint64

uint64

同上

sint32

int32

使用可变长编码方式,有符号的整型值,编码时比通常的int32高效

sint64

sint64

同上

fixed32

uint32

总是4个字节,如果数值总是比2^28大的话,这个类型会比uint32高效

fixed64

uint64

总是8个字节,如果数值总是比2^56大的话,这个类型会比uint64高效

sfixed32

int32

总是4个字节

sfixed64

int64

总是8个字节

bool

bool


string

string

一个字符串必须是utf-8编码或者7-bit的ascii编码的文本

bytes

string

可能包含任意顺序的字节数据

(2)protobuf不支持二维数组(指针),不支持STL容器序列化

这个缺陷挺大,因为稍复杂点的数据结构或类结构里出现二维数组、二维指针和STL容器(set、list、map等)很频繁,但因为
protobuf简单的实现机制,只支持一维数组和指针(用repeated修饰符修饰),不能使用repeated repeated来支持二维数组,
也不支持STL,因此在选择该方案之前,一定 要确保你的数据结构里没有这些不支持的类型。

(3)protobuf嵌套后会改变类名称

protobuf支持类的嵌套,即在一个自定义类型中可以定义另一个自定义类型,但注意嵌套的自定义类型在经过protobuf处理后生成的类名称并不是你定义的类名称,而是加上了外层的类名称作为前缀,下面举一个简单的例子:


    message DFA {
required int32 _size = 1;

message accept_pair {
required bool is_accept_state = 1;
required bool is_strict_end = 2;
optional string app_name = 3;
}

repeated accept_pair accept_states = 2;
}

那么嵌套中的accept_pair 生成后的类不是accept_pair 而是DFA_accept_pair 。如果不想改类名称,将accept_pair
拿到外面与DFA平行定义即可。

4.2 Boost.Serialization


Boost库是个很庞大的库,功能非常丰富,序列化只是其中的一个小分支,但为了使用Boost的序列化方案,你需要安装整个Boost库,所花费的磁盘空间和时间都很多,同样支持的序列化功能也很强大,既支持二维数组(指针),也支持STL容器,更不需要我们用某种特殊的格式重新定义我们的类结构,其非侵入的性质使得我们无须改动已有的类结构即可序列化,这时非常赞的一个性质。但是由于体积庞大,安装复杂,如果只是简单的序列化,没必要使用该方案,只有protobuf不能满足你的需求时,才应该考虑该方案。

(1)安装boost库遇到的一系列问题

安装boost库本事就是一项很费时的工程,如果期间出现了各种错误,更加耗时耗耐心。我们可以从官网下载Boost库的二进制源码进行安装,安装方法请参考网络或后面我给出的参考资料,下面给出安装时的注意事项:

注意1:要用root权限进行安装,否则会在安装过程中报错,提示权限不足。

注意2:boost库的安装依赖一些环境,通常有Python、bzip2和zlib,它们所在的软件包分别为:

Ubuntu下:

zlib1g-dev
libbz2-dev
libpython2.7-dev (and libpython3.3-dev)

Fedora/Redhat下:

zlib-devel
libbz2-devel
python-devel (and python3-devel)

这也是安装过程中报错的主要来源。

报错1:如果Python库不完整,可能会报“ fatal error:
pyconfig.h: No such file or directory compilation
terminated.”错误。解决方法如下:

Fedora系统:sudo yum install python-devel

Ubuntu系统:sudo apt-get  install python-dev

报错2:报错 “
libs/iostreams/src/bzip2.cpp:20:56: fatal error: bzlib.h: No such file or
directory”,解决方案:

Fedora系统:sudo yum install bzip2-devel

Ubuntu系统或Debian系统:sudo apt-get install libbz2-dev

通常对于这些错误,在Ubuntu系统下一般可以通过sudo
apt-get install libboost-all-dev全部解决,但不一定行得通。

(2)安装成功后,如果未指定安装位置,那么默认将会安装到/usr/local/lib和/usr/local/include下,那么我们在使用Boost库进行编译时就需要使用-L和-I参数加上具体的lib和include路径,像下面这样:

g++ -o test boost_test.cpp -I$BOOST_INCLUDE -L$BOOST_LIB -lboost_serialization

如果觉得每次都这样很麻烦,那么可以将我们所要用到的lib和include文件加入到环境变量中,像下面这样:

sudo cp /usr/local/lib/libboost_serialization.* /usr/lib
sudo cp -r /usr/local/include/boost /usr/include

然后在编译时直接g++
-o test boost_test.cpp -lboost_serialization
即可。

注意:boost下面有两个序列化lib文件:ibboost_serialization.lib 和
libboost_wserialization.lib,那么这两者有什么区别呢?

其实‘w‘ 表示使用的是宽字符,例如
wchar_t。

(3)boost不尽人意的地方

  • 基本类型指针很难序列化,例如int *array,官网上是这么说的:
    By default, data types designated primitive by Implementation Levelclass serialization trait are never
    tracked. If it is desired totrack a shared primitive object through a
    pointer (e.g. along used as a
    reference count), It should be wrappedin a class/struct so that it is an
    identifiable type.The alternative of changing the implementation level of
    alongwould affect alllongs
    serialized in the wholeprogram - probably not what one would
    intend.
    也就是说如果你想序列化原生类型的指针,需要给其加上struct或class使其变为类类型再序列化,可见有些麻烦,这样的需求往往也很频繁,鉴于序列化机制的实现原理,boost库暂时还不能很好的支持基本类型的指针序列化。

  • 不能序列化变长数组(variable-sized
    array),会报错说变长数组不是模板类类型。

(4)如果需要定义一个对象数组,如定义含有2个元素的class A对象数组,那么必须用A a[2]定义而不能用对象的指针A *a = new
A[2]定义,这样序列化a后默认当作一个A对象处理,因此只能存储一个对象的值,后面的不会存储。

(5)所谓boost很人性的非侵入性质也有一定的条件:如果不想改动原来的类,那么原来的类属性必须是public的,这很容易解释,因为你必须
要能在别处访问到这些属性并定义其序列化方式,当然这也在其它地方暴露了类的结构,具有一定的劣势。这样的条件往往很难满足,因为我们定义的类属性一般都
是private的,如果是这样,且仍想要使用非侵入性质,那么需要在类中添加以下声明来开放访问给 serialization
库:

friend class boost::serialization::access; 

这样的方式比让成员public更好。

参考资料


最常用的两种C++序列化方案的使用心得(protobuf和boost serialization),布布扣,bubuko.com

时间: 2024-10-06 00:30:57

最常用的两种C++序列化方案的使用心得(protobuf和boost serialization)的相关文章

最经常使用的两种C++序列化方案的使用心得(protobuf和boost serialization)

导读 1. 什么是序列化? 2. 为什么要序列化?优点在哪里? 3. C++对象序列化的四种方法 4. 最经常使用的两种序列化方案使用心得 正文 1. 什么是序列化? 程序猿在编写应用程序的时候往往须要将程序的某些数据存储在内存中,然后将其写入某个文件或是将它传输到网络中的还有一台计算机上以实现通讯.这个将程序数据转化成能被存储并传输的格式的过程被称为"序列化"(Serialization),而它的逆过程则可被称为"反序列化"(Deserialization). 简

【REACT NATIVE 系列教程之十三】利用LISTVIEW与TEXTINPUT制作聊天/对话框&&获取组件实例常用的两种方式

本站文章均为 李华明Himi 原创,转载务必在明显处注明: 转载自[黑米GameDev街区] 原文链接: http://www.himigame.com/react-native/2346.html 本篇Himi来利用ListView和TextInput这两种组件实现对话.聊天框. 首先需要准备的有几点:(组件的学习就不赘述了,简单且官方有文档) 1. 学习下 ListView: 官方示例:http://reactnative.cn/docs/0.27/tutorial.html#content

[💯原]IOS之Objectic-C的单例的两种安全实现方案

所有转出博客园,请您注明出处:http://www.cnblogs.com/xiaobajiu/p/4122034.html Objectic-C的单例的两种安全实现方案 首先应该知道单例的实现有两大类,一个是懒汉式,一个是饿汉式.所谓的懒汉式就是在我们用到某对象(资源)的时候,去问一个负责提供的方法要那个对象.那个方法发现没有这个资源时就去创建资源,如果是已经有该资源时就直接返回这个资源.而饿汉式就是那个负责提供的方法早已为我们准备好了我们想要的资源问它,它就提供给我们那个它早就准备好了的资源

常用的两种spring、mybatis 配置方式

在之前的文章中总结了三种方式,但是有两种是注解sql的,这种方式比较混乱所以大家不怎么使用,下面总结一下常用的两种总结方式: 一. 动态代理实现 不用写dao的实现类 这种方式比较简单,不用实现dao层,只需要定义接口就可以了,这里只是为了记录配置文件所以程序写的很简单: 1.整体结构图: 2.三个配置文件以及一个映射文件 (1).程序入口以及前端控制器配置 web.xml <?xml version="1.0" encoding="UTF-8"?> &

企业宣传片在拍摄时常用的两种方式

企业宣传片在拍摄时常用的两种方式北京企业宣传片制作公司:企业宣传片在拍摄时常用的两种方式.固定拍摄:固定拍摄是将摄影机和支架固定在确定的地方,以固定的角度和方向进行拍摄.其特点是:画面稳定.清晰,不会出现抖动的现象.观众的视线在画面上停留.游动的相对时间长,有利看清画面的内容.容易产生单调.呆板的感觉.固定拍摄可以从拍摄方向.位置.角度上进行变化.既可正拍也可反拍,既可有近景也可有中景.特写等,可以在机位或镜头内部运动等方面变化.运动拍摄:是指不断地变动摄影机在拍摄过程中的方向.位置.角度.其特

java 获取键盘输入常用的两种方法

java 获取键盘输入常用的两种方法 方法1: 通过 Scanner Scanner input = new Scanner(System.in); String s = input.nextLine(); input.close(); 方法2: 通过 BufferedReader BufferedReader input = new BufferedReader(new InputStreamReader(System.in)); String s = input.readLine(); 原文

spring 中常用的两种事务配置方式以及事务的传播性、隔离级别

转载:http://blog.csdn.net/qh_java/article/details/51811533 一.注解式事务 1.注解式事务在平时的开发中使用的挺多,工作的两个公司中看到很多项目使用了这种方式,下面看看具体的配置demo. 2.事务配置实例 (1).spring+mybatis 事务配置 [html] view plain copy <!-- 定义事务管理器 --> <bean id="transactionManager" class="

创建 Spring Boot 项目常用的两种方式

在开发中,常用的创建的 Spring Boot 项目方式有两种,一种是使用 Spring Initializr , 一种是创建一个 Maven 工程,导入 Spring Boot 的依赖 使用 IDEA 的 Spring Initializr 的方式 选择 IDEA 的 File -> New -> Project 选择 Spring Initializr ,如下图: 在 Project Metadata 页面,输入 Group, Artifact ,Version, Name, Descri

java:常用的两种设计模式(单例模式和工厂模式)

一.单例模式:即一个类由始至终只有一个实例.有两种实现方式(1)定义一个类,它的构造方法是私有的,有一个私有的静态的该类的变量在初始化的时候就实例化,通过一个公有的静态的方法获取该对象.Java代码 1. //单例模式的第一种形式    2. public class Singleton01 {    3.    4.     // 私有的静态属性    5.     private static Singleton01 instance = new Singleton01();    6.