Ceph Newstore存储引擎介绍

　　在Ceph被越来越多地应用于各项存储业务过程中，其性能及调优策略也成为用户密切关注讨论的话题，影响性能表现关键因素之一即OSD存储引擎实现；Ceph基础组件RADOS是强一致、对象存储系统，其OSD底层支持的存储引擎如下图所示：

其中，ObjectStore层封装了下层存储引擎的所有IO操作，向上层提供对象(object)、事务(Transaction)语义的接口，MemStore为基于内存的实现；KeyValueStore主要基于KV数据库(如leveldb, rocksdb等)实现接口功能，事务实现也基于KV数据库自身；FileStore是Ceph目前默认的存储引擎(也是目前使用最多的存储引擎)，其事务实现基于Journal机制(Journal文件或块设备)；除了支持事务特性(consistency、atomic等)外，Journal还可将多个小IO写合并为顺序写Journal，以提升性能。

　　在社区使用过程中，FileStore也暴露了若干问题：(1)Journal机制使一次写请求在OSD端变为两次写操作(同步写Journal，异步写入object)；(2)对前一个问题，社区通常做法是使用专门设备(如SSD)用作Journal以解耦Journal和object写操作的相互影响，但持续循环写入Journal会降低SSD设备的使用寿命；(3)写入的每个object都一一对应OSD本地文件系统的一个物理文件，对于大量小object存储场景，OSD端无法缓存本地所有文件的inode等元数据，使读写操作可能需要多次本地IO，系统性能差；(4)object对应的本地物理文件的文件名，包含了object name、rados namespaces、object name hash、snapshot等信息，可能会超过本地文件系统对文件名长度的限制。

　　面对上述问题，新的存储引擎NewStore(又被称为KeyFileStore)出现，其关键数据结构如下图所示：

其主要特点有：(1)解耦object与本地物理文件间的一一对应关系，通过索引结构(上图中ONode)在object和本地物理文件建立映射关系，并使用KV数据库存储索引数据；(2)在保证事务特性的同时，对于object的create/append/overwrite(fragement aligned)操作，无需Journal支持；(3)对于unaligned update操作，先同步写入write-ahead-log(简称为WAL，使用KV存储)，再异步写入相应的fragement文件；(4)在KV数据库上层建立Onode数据cache以加速读取操作；(5)单个object可以有多个fragement文件，多个object也可共存于一个fragement文件；

　　FileStore的上述问题，在NewStore结构中已基本解决；NewStore还采用以下策略来减小WAL的性能开销：(1)在update写入fragement文件后，立即将相应WAL从KVdb中删除(WAL已完成使命，无需保存)；(2)增大KVdb的write buffer，尽量将WAL保留在buffer中，避免不必要的dump；(3)在write buffer数据dump到磁盘前，强制合并多个buffer数据，以避免不必要的dump。在初步的随机读写测试中，NewStore相对于FileStore有60%的性能提升；

　　本博客的上篇博文《海量小文件存储与Ceph实践》从元数据管理、本地存储引擎两个方面对海量小文件存储问题进行了分析描述，并通过object class接口层对FileStore存储结构做了改进优化，虽不够彻底，但也在很大程度上优化了小文件存储性能；NewStore则直接在存储引擎层进行重新设计实现，解耦object与本地物理文件间的对应关系，并允许多个object共存于一个fragement文件；但二者对小文件本地存储引擎优化的本质思想是相通的，即合并存储+索引；不过目前NewStore还在密集开发阶段，到线上部署还需要一段时间；相信以后随着NewStore引擎的逐步部署与成熟，海量小文件存储难题也不再是难题。

　　另外，基于object class接口层的改进优化方案相关代码实现已放到github，欢迎测试使用及批评指正。

参考：

图片和相关内容摘自2015年6月份Beijing Ceph Day《Newstore》讲稿

http://thread.gmane.org/gmane.comp.file-systems.ceph.devel/23414/focus=23417

http://docs.ceph.com/docs/master/rados/configuration/journal-ref/

http://www.sebastien-han.fr/blog/2014/02/17/ceph-io-patterns-the-bad/

http://tracker.ceph.com/projects/ceph/wiki/Optimize_Newstore_for_massive_small_object_storage

http://www.cnblogs.com/wuhuiyuan/p/ceph-small-file-compound-storage.html

http://www.wzxue.com/ceph-filestore/

http://www.wzxue.com/ceph-keyvaluestore/

https://github.com/yxgup/ceph/tree/omap_indexed_compound

------------------------------------

http://www.cnblogs.com/wuhuiyuan/p/4907984.html

个人原创，转载请注明出处。

时间： 2024-08-02 07:02:02

Ceph Newstore存储引擎介绍

Ceph Newstore存储引擎介绍的相关文章

mysql几种存储引擎介绍

Mysql的存储引擎介绍

数据库之 Mysql存储引擎介绍

mysql 存储引擎介绍

MySQL教程详解之存储引擎介绍及默认引擎设置

MySQL存储引擎介绍 w

InnoDB存储引擎介绍-(4)Checkpoint机制二

mysql 的存储引擎介绍

mysql 存储引擎介绍