实时同步MongoDB Oplog开发指南

转载请注明joymufeng,欢迎访问PlayScala社区(http://www.playscala.cn/)

Capped Collections

MongoDB有一种特殊的Collection叫Capped collections,它的插入速度非常快,基本和磁盘的写入速度差不多,并且支持按照插入顺序高效的查询操作。Capped collections的大小是固定的,它的工作方式很像环形缓冲器(circular buffers), 当剩余空间不足时,会覆盖最先插入的数据。

Capped collections的特点是高效插入和检索,所以最好不要在Capped collections上添加额外的索引,否则会影响插入速度。Capped collections可以用于以下场景:

  • 存储日志: Capped collections的first-in-first-out特性刚好满足日志事件的存储顺序;
  • 缓存小量数据:因为缓存的特点是读多写少,所以可以适当使用索引提高读取速度。

Capped collections的使用限制:

  • 如果更新数据,你需要为之创建索引以防止collection scan;
  • 更新数据时,文档的大小不能改变。比如说name属性为‘abc‘,则只能修改成3个字符的字符串,否则操作将会失败;
  • 数据不允许删除,如果非删除不可,只能drop collection
  • 不支持sharding
  • 默认只支持按自然顺序(即插入顺序)返回结果

Capped collections可以使用$natural操作符按插入顺序的正序或反序返回结果:

db[‘oplog.rs‘].find({}).sort({$natural: -1})

Oplog

Oplog是一种特殊的Capped collections,特殊之处在于它是系统级Collection,记录了数据库的所有操作,集群之间依靠Oplog进行数据同步。Oplog的全名是local.oplog.rs,位于local数据下。由于local数据不允许创建用户,如果要访问Oplog需要借助其它数据库的用户,并且赋予该用户访问local数据库的权限,例如:

db.createUser({
   user: "play-community",
   pwd: "******",
   "roles" : [
    {
      "role" : "readWrite", 
      "db" : "play-community"
    }, 
    {
      "role" : "read", 
      "db" : "local"
    }
  ]
})

Oplog记录的操作记录是幂等的(idempotent),这意味着你可以多次执行这些操作而不会导致数据丢失或不一致。例如对于$inc操作,Oplog会自动将其转换为$set操作,例如原始数据如下:

{ 
  "_id" : "0", 
  "count" : 1.0
}

执行如下$inc操作:

db.test.update({_id: "0"}, {$inc: {count: 1}})

Oplog记录的日志为:

{ 
  "ts" : Timestamp(1503110518, 1), 
  "t" : NumberLong(8), 
  "h" : NumberLong(-3967772133090765679), 
  "v" : NumberInt(2), 
  "op" : "u", 
  "ns" : "play-community.test", 
  "o2" : {
    "_id" : "0"
  }, 
  "o" : {
    "$set" : {
      "count" : 2.0
    }
  }
}

这种转换可以保证Oplog的幂等性。另外Oplog为了保证插入性能,不允许额外创建索引。

Timestamps格式

MongoDB有一种特殊的时间格式Timestamps,仅用于内部使用,例如上面Oplog记录:

Timestamp(1503110518, 1)

Timestamps长度为64位:

  • 前32位是time_t值,表示从epoch时间至今的秒数
  • 后32位是ordinal值,该值是一个顺序增长的序数,表示某一秒内的第几次操作

开始同步Oplog

在开始同步Oplog之前,我们需要注意以下几点:

  • 由于Oplog不使用索引,所以初始查询代价可能很大
  • 当Oplog数据量很大时,可以保存ts,系统重启时利用该ts可以减少首次查询开销
  • oplogReplay标志可以显著加快包含ts条件过滤的查询,但是只对oplog查询有效
val tailingCursor =
 oplogCol
  .find(Json.obj("ns" -> Json.obj("$in" -> Set(s"${db}.common-doc", s"${db}.common-article")), "ts" -> Json.obj("$gte" -> lastTS)))
  .options(QueryOpts().tailable.oplogReplay.awaitData.noCursorTimeout)
  .cursor[BSONDocument]()

tailingCursor.fold(()){ (_, doc) =>
 try {
  val jsObj = doc.as[JsObject]
  jsObj("op").as[String] match {
   case "i" => // 插入
   case "u" => // 更新
   case "d" => // 删除
  }

  // 保存ts值,以备后用
  if (tailCount.get() % 10 == 0) { }
 } catch {
  case t: Throwable =>
   Logger.error("Tail oplog Error: " + t.getMessage, t)
 }
}

另外提醒大家注意,ReactiveMongo-Streaming的Akka Stream实现有bug,如果首次查询没有数据返回,则会持续发送查询请求,大约每秒中发送几十次至几百次请求,因为Oplog的查询开销很大,最终会导致MongoDB内存溢出。详情参考Keep sending queries while the initial query result of a tailable cursor is empty.

参考

时间: 2024-10-13 09:12:47

实时同步MongoDB Oplog开发指南的相关文章

20170705L07-09-03老男孩linux运维实战培训-Sersync实时同步软件实战应用指南-2

接上一节继续说的sersync 这一节讲的是sersync的实际实验 主服务器sersync的安装,设置 然后是同步的演示 让人能更加了解同步自动化软件的原理 其中对实时同步进行了说明 当同步量很大的时候 可能客户机并不能实时进行更新

web端实时音视频功能开发指南

yun2win官网:www.yun2win.com SDK下载地址:http://www.yun2win.com/h-col-107.html 简介 yun2win-sdk-web提供web端实时音视频功能完整解决方案,方便客户快速集成音视频功能. SDK 提供整套解决方案 yun2win官网:www.yun2win.com SDK下载地址:http://www.yun2win.com/h-col-107.html 开发准备 1.准备Chrome浏览器版本49及以上 2.给网站配置CA证书 3.

20170710L07-09-03老男孩Linux运维实战培训-Sersync实时同步软件实战应用指南08

还是说的sersync的压力测试 for n in 'seq 100' ; do mkdir -p test/$n:done        #创建100目录 还是压力测试的实际测试.这次好像加入了一个脚本去记录同步的延时

MongoDB -> kafka 高性能实时同步(采集)mongodb数据到kafka解决方案

写这篇博客的目的 让更多的人了解 阿里开源的MongoShake可以很好满足mongodb到kafka高性能高可用实时同步需求(项目地址:https://github.com/alibaba/MongoShake,下载地址:https://github.com/alibaba/MongoShake/releases).至此博客就结束了,你可以愉快地啃这个项目了.还是一起来看一下官方的描述: MongoShake is a universal data replication platform b

MongoDB高手进阶指南

一.概述 (1)版本历程 0.x 起步节点 1.x 支持复制集和分片 2.x 更加丰富的数据库功能 3.x 合并了一家专门做数据库引擎的Wired Tiger公司,更加完善的周边生态环境 4.x 支持分布式事务 MongoDB的正式版本都是偶数版本,x.x.x,主要版本(x.x)大约每年升级一次,小版本主要是修复问题,通常1-2个月发布一次. MongoDB支持原生高可用:Application通过Driver连接到Primary节点,一个Primary节点连接多个Secondary节点. Mo

开发指南专题十:JEECG微云快速开发平台--表单校验组件ValidForm

10.4Validform对象[方法支持链式调用] 如示例 var demo=$(".formsub").Validform(),那么demo对象会有以下属性和方法可以调用: tipmsg[object] 如:demo.tipmsg.s="error! no messageinputed."; 通过该对象可以修改除 tit 以外的其他提示文字,这样可以实现同一个页面的不同表单使用不同的提示文字. 具体可修改的提示文字 $.Tipmsg={//默认提示文字; tit:

使用express4.x版、Jade模板以及mysql重写《nodejs开发指南》微博实例

最近阅读<nodejs开发指南>一书,书是不错的,然而其微博代码示例用的是express3.x,用些过时了,运行代码出现不少bug(我电脑安的是express4.x),于是用express4.x+jade模板重写一遍(原代码使用的是ejs模板).因为想体验一下node结合MySQL开发,于是将mongodb改为mysql.下面进入正文 1.安装express框架与生成器: 2.进入网站目录,创建项目: 3.安装中间件与依赖项: package.json如下 单独安装时记得加上--save,便于

Knockout应用开发指南

第一章:入门 1.Knockout简介 (Introduction) Knockout是一个轻量级的UI类库,通过应用MVVM模式使JavaScript前端UI简单化. Knockout有如下4大重要概念: 声明式绑定 (Declarative Bindings):使用简明易读的语法很容易地将模型(model)数据关联到DOM元素上. UI界面自动刷新 (Automatic UI Refresh):当您的模型状态(model state)改变时,您的UI界面将自动更新. 依赖跟踪 (Depend

linux运维、架构之路-实时同步方案

1.inotify+rsync实时同步 1.介绍         inotify-tools是一种强大的.细粒度的.异步的文件系统事件监控机制,可以用来监控文件系统的事件.inotify-tools是用c编写的,除了要求内核支持inotify外,不依赖于其他.inotify-tools提供两种工具,一是inotifywait,它是用来监控文件或目录的变化,二是inotifywatch,它是用来统计文件系统访问的次数. 2.实现原理 3.根据原理进行部署 ①查看系统是否支持inotify [[em